論文の概要: Peer-Aware Cost Estimation in Nonlinear General-Sum Dynamic Games for Mutual Learning and Intent Inference
- arxiv url: http://arxiv.org/abs/2504.17129v1
- Date: Wed, 23 Apr 2025 22:47:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.191114
- Title: Peer-Aware Cost Estimation in Nonlinear General-Sum Dynamic Games for Mutual Learning and Intent Inference
- Title(参考訳): 相互学習とインテント推論のための非線形汎用動的ゲームにおけるピアアウェアコスト推定
- Authors: Seyed Yousef Soltanian, Wenlong Zhang,
- Abstract要約: 汎用動的ゲームのための非線形ピアアウェアコスト推定アルゴリズムを提案する。
N-PACEは、目的関数を推論しながら、ピアエージェントの学習ダイナミクスを明示的にモデル化する。
我々は、N-PACEが、ピアの学習力学を明示的にモデル化することにより、このようなマルチエージェントシステムにおけるテキスト境界通信を実現する方法を示す。
- 参考スコア(独自算出の注目度): 7.1177896599806205
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Human-robot interactions can be modeled as incomplete-information general-sum dynamic games since the objective functions of both agents are not explicitly known to each other. However, solving for equilibrium policies for such games presents a major challenge, especially if the games involve nonlinear underlying dynamics. To simplify the problem, existing work often assumes that one agent is an expert with complete information about its peer, which can lead to biased estimates and failures in coordination. To address this challenge, we propose a nonlinear peer-aware cost estimation (N-PACE) algorithm for general-sum dynamic games. In N-PACE, using iterative linear quadratic (LQ) approximation of the nonlinear general-sum game, each agent explicitly models the learning dynamics of its peer agent while inferring their objective functions, leading to unbiased fast learning in inferring the unknown objective function of the peer agent, which is critical for task completion and safety assurance. Additionally, we demonstrate how N-PACE enables \textbf{intent communication} in such multi-agent systems by explicitly modeling the peer's learning dynamics.
- Abstract(参考訳): 人間とロボットの相互作用は、双方のエージェントの目的関数が互いに明示的に知られていないため、不完全情報汎用ゲームとしてモデル化することができる。
しかし、そのようなゲームに対する平衡ポリシーの解決は、特にゲームが非線形基底力学を含む場合、大きな課題となる。
問題を単純化するために、既存の作業では、ひとつのエージェントがピアに関する完全な情報を持つ専門家であると仮定することが多い。
この課題に対処するために、汎用動的ゲームのための非線形ピアウェアコスト推定(N-PACE)アルゴリズムを提案する。
N-PACEでは、非線形汎用ゲームにおける反復線形二次近似(LQ)を用いて、各エージェントは、目的関数を推論しながら、そのピアエージェントの学習ダイナミクスを明示的にモデル化し、タスクの完了と安全性の確保に重要なピアエージェントの未知の目的関数を推定する際に、バイアスのない高速学習をもたらす。
さらに、N-PACEは、ピアの学習力学を明示的にモデル化することにより、このようなマルチエージェントシステムで \textbf{intent communication} を可能にすることを示す。
関連論文リスト
- PACE: A Framework for Learning and Control in Linear Incomplete-Information Differential Games [7.1177896599806205]
本稿では,他のエージェントのコストパラメータを学習するためのモデルに基づくピア・アウェア・コスト推定フレームワークを提案する。
PACEにおけるパラメータ推定の収束とシステム状態の安定性に関する理論的保証を提供する。
論文 参考訳(メタデータ) (2025-04-23T22:43:41Z) - Toward Optimal LLM Alignments Using Two-Player Games [86.39338084862324]
本稿では,対戦相手と防御エージェントの反復的相互作用を含む2エージェントゲームのレンズによるアライメントについて検討する。
この反復的強化学習最適化がエージェントによって誘導されるゲームに対するナッシュ平衡に収束することを理論的に実証する。
安全シナリオにおける実験結果から、このような競争環境下での学習は、完全に訓練するエージェントだけでなく、敵エージェントと防御エージェントの両方に対する一般化能力の向上したポリシーにつながることが示されている。
論文 参考訳(メタデータ) (2024-06-16T15:24:50Z) - Auto-Encoding Bayesian Inverse Games [36.06617326128679]
ゲームの性質が不明な逆ゲーム問題を考える。
既存の最大推定手法は、未知のパラメータの点推定のみを提供する。
ベイズ的視点を採り、ゲームパラメータの後方分布を構成する。
この構造化されたVAEは、観測された相互作用のラベルのないデータセットから訓練することができる。
論文 参考訳(メタデータ) (2024-02-14T02:17:37Z) - Interactive Autonomous Navigation with Internal State Inference and
Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。
これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。
提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-27T18:57:42Z) - Data-Driven Inverse Reinforcement Learning for Expert-Learner Zero-Sum
Games [30.720112378448285]
逆強化学習をエキスパート-ラーナーインタラクションとして定式化する。
学習者エージェントに対して、専門家や対象エージェントの最適性能意図が不明である。
我々は、専門家や学習者エージェントのダイナミクスの知識を必要としない、政治以外のIRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-01-05T10:35:08Z) - Independent and Decentralized Learning in Markov Potential Games [3.549868541921029]
マルチエージェント強化学習ダイナミクスについて検討し、無限水平割引マルコフポテンシャルゲームにおけるその挙動を解析する。
我々は、プレイヤーがゲームパラメータを知らない、コミュニケーションやコーディネートができない、独立的で分散的な設定に焦点を当てる。
論文 参考訳(メタデータ) (2022-05-29T07:39:09Z) - Pessimism meets VCG: Learning Dynamic Mechanism Design via Offline
Reinforcement Learning [114.36124979578896]
オフライン強化学習アルゴリズムを用いて動的メカニズムを設計する。
我々のアルゴリズムは悲観主義の原理に基づいており、オフラインデータセットのカバレッジについて軽度な仮定しか必要としない。
論文 参考訳(メタデータ) (2022-05-05T05:44:26Z) - Learning Self-Modulating Attention in Continuous Time Space with
Applications to Sequential Recommendation [102.24108167002252]
本稿では,複雑で非線形に進化する動的ユーザの嗜好をモデル化する,自己変調型注意ネットワークを提案する。
提案手法がトップNシーケンシャルなレコメンデーションタスクに与える影響を実証的に示すとともに,3つの大規模実世界のデータセットによる結果から,我々のモデルが最先端のパフォーマンスを達成できることを示す。
論文 参考訳(メタデータ) (2022-03-30T03:54:11Z) - IQ-Learn: Inverse soft-Q Learning for Imitation [95.06031307730245]
少数の専門家データからの模倣学習は、複雑な力学を持つ高次元環境では困難である。
行動クローニングは、実装の単純さと安定した収束性のために広く使われている単純な方法である。
本稿では,1つのQ-関数を学習することで,対向学習を回避する動的適応型ILを提案する。
論文 参考訳(メタデータ) (2021-06-23T03:43:10Z) - Distributed Bayesian Online Learning for Cooperative Manipulation [9.582645137247667]
ベイズ原理を用いた協調操作の模範的タスクのための新しい分散学習フレームワークを提案する。
各エージェントは、局所状態情報のみを使用して、オブジェクトダイナミクスの推定を取得し、キネマティクスを把握する。
対象のダイナミクスと把持キネマティックスの各々の推定には不確実性の尺度が伴うため、高い確率で有界な予測誤差を保証できる。
論文 参考訳(メタデータ) (2021-04-09T13:03:09Z) - Moody Learners -- Explaining Competitive Behaviour of Reinforcement
Learning Agents [65.2200847818153]
競合シナリオでは、エージェントは動的環境を持つだけでなく、相手の行動に直接影響される。
エージェントのQ値の観察は通常、その振る舞いを説明する方法であるが、選択されたアクション間の時間的関係は示さない。
論文 参考訳(メタデータ) (2020-07-30T11:30:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。