論文の概要: Multi-Agent Inverse Reinforcement Learning: Suboptimal Demonstrations
and Alternative Solution Concepts
- arxiv url: http://arxiv.org/abs/2109.01178v1
- Date: Thu, 2 Sep 2021 19:15:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-06 14:04:54.647923
- Title: Multi-Agent Inverse Reinforcement Learning: Suboptimal Demonstrations
and Alternative Solution Concepts
- Title(参考訳): 多エージェント逆強化学習--準最適デモと代替解の概念
- Authors: Sage Bergerson
- Abstract要約: マルチエージェント逆強化学習は、社会的環境におけるエージェントから報酬関数を学習するために用いられる。
現実的な社会的ダイナミクスをモデル化するには、MIRL法は最適な人間の推論と振る舞いを考慮しなければならない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent inverse reinforcement learning (MIRL) can be used to learn reward
functions from agents in social environments. To model realistic social
dynamics, MIRL methods must account for suboptimal human reasoning and
behavior. Traditional formalisms of game theory provide computationally
tractable behavioral models, but assume agents have unrealistic cognitive
capabilities. This research identifies and compares mechanisms in MIRL methods
which a) handle noise, biases and heuristics in agent decision making and b)
model realistic equilibrium solution concepts. MIRL research is systematically
reviewed to identify solutions for these challenges. The methods and results of
these studies are analyzed and compared based on factors including performance
accuracy, efficiency, and descriptive quality. We found that the primary
methods for handling noise, biases and heuristics in MIRL were extensions of
Maximum Entropy (MaxEnt) IRL to multi-agent settings. We also found that many
successful solution concepts are generalizations of the traditional Nash
Equilibrium (NE). These solutions include the correlated equilibrium, logistic
stochastic best response equilibrium and entropy regularized mean field NE.
Methods which use recursive reasoning or updating also perform well, including
the feedback NE and archive multi-agent adversarial IRL. Success in modeling
specific biases and heuristics in single-agent IRL and promising results using
a Theory of Mind approach in MIRL imply that modeling specific biases and
heuristics may be useful. Flexibility and unbiased inference in the identified
alternative solution concepts suggest that a solution concept which has both
recursive and generalized characteristics may perform well at modeling
realistic social interactions.
- Abstract(参考訳): マルチエージェント逆強化学習(MIRL)は、社会的環境におけるエージェントから報酬関数を学習するために用いられる。
現実的な社会的ダイナミクスをモデル化するには、MIRL法は最適な人間の推論と行動を考慮する必要がある。
ゲーム理論の伝統的な形式主義は、計算的に抽出可能な行動モデルを提供するが、エージェントは非現実的な認知能力を持つと仮定する。
本研究は, (a) エージェント決定におけるノイズ, バイアス, ヒューリスティックスを扱うMIRL法におけるメカニズムと, (b) 現実的平衡解の概念をモデル化し, 比較する。
MIRL研究はこれらの課題に対する解決策を特定するために体系的にレビューされている。
本研究の方法と結果は, 性能の正確性, 効率性, 記述的品質などの要因に基づいて分析し, 比較した。
MIRLのノイズ,バイアス,ヒューリスティックスを扱う主要な方法は,最大エントロピー(MaxEnt)IRLをマルチエージェント設定に拡張することであった。
また、多くの解の概念が従来のナッシュ平衡(NE)の一般化であることも見出した。
これらの解には相関平衡、ロジスティック確率的最適応答平衡、エントロピー正則平均場NEが含まれる。
再帰的推論や更新を用いる手法もよく機能し、フィードバックNEやマルチエージェント逆IRLをアーカイブする。
単一エージェントIRLにおける特定のバイアスとヒューリスティックのモデリングの成功と、MIRLにおけるマインド理論を用いた有望な結果は、特定のバイアスとヒューリスティックのモデリングが有用であることを示している。
同定された代替解の概念の柔軟性と偏りのない推論は、再帰的かつ一般化された特徴を持つ解の概念が現実的な社会的相互作用をモデル化する上でうまく機能する可能性を示唆している。
関連論文リスト
- PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
社会実践, 一貫性, 動的発達という, 心理学に根ざした個性の原則を統合したPersLLMを提案する。
モデルパラメータに直接パーソナリティ特性を組み込み、誘導に対するモデルの抵抗性を高め、一貫性を高め、パーソナリティの動的進化を支援する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - A Single Online Agent Can Efficiently Learn Mean Field Games [16.00164239349632]
平均場ゲーム (MFGs) は大規模人口システムの振る舞いをモデル化するための有望なフレームワークである。
本稿では,オンラインサンプルを用いてMFNEを学習できるオンライン単エージェントモデルフリー学習方式を提案する。
論文 参考訳(メタデータ) (2024-05-05T16:38:04Z) - Variational Inference of Parameters in Opinion Dynamics Models [9.51311391391997]
この研究は、変数推論を用いて、意見力学 ABM のパラメータを推定する。
我々は推論プロセスを自動微分に適した最適化問題に変換する。
提案手法は, シミュレーションベース法とMCMC法より, マクロ的(有界信頼区間とバックファイア閾値)と微視的(200ドル, エージェントレベルの役割)の両方を正確に推定する。
論文 参考訳(メタデータ) (2024-03-08T14:45:18Z) - Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL [57.745700271150454]
モデルに基づく関数近似を用いた平均フィールドゲーム(MFG)における強化学習のサンプル複雑性について検討した。
本稿では、モデルクラスの複雑性を特徴付けるためのより効果的な概念である部分モデルベースエルダー次元(P-MBED)を紹介する。
論文 参考訳(メタデータ) (2024-02-08T14:54:47Z) - Learning and Calibrating Heterogeneous Bounded Rational Market Behaviour
with Multi-Agent Reinforcement Learning [4.40301653518681]
エージェントベースモデル(ABM)は、従来の平衡解析と相容れない様々な実世界の現象をモデル化することを約束している。
マルチエージェント強化学習(MARL)の最近の進歩は、合理性の観点からこの問題に対処する方法を提供する。
MARLフレームワーク内で不均一な処理制約を持つエージェントを表現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-01T17:21:45Z) - Human Trajectory Forecasting with Explainable Behavioral Uncertainty [63.62824628085961]
人間の軌道予測は人間の行動を理解し予測し、社会ロボットから自動運転車への応用を可能にする。
モデルフリー手法は予測精度が優れているが説明可能性に欠ける一方、モデルベース手法は説明可能性を提供するが、よく予測できない。
BNSP-SFMは,11種類の最先端手法と比較して,予測精度を最大50%向上することを示す。
論文 参考訳(メタデータ) (2023-07-04T16:45:21Z) - Concept Learning for Interpretable Multi-Agent Reinforcement Learning [5.179808182296037]
本稿では,ドメインエキスパートからの解釈可能な概念を,マルチエージェント強化学習を通じて学習したモデルに組み込む手法を提案する。
これにより、専門家は、結果のコンセプトモデルについて、これらのハイレベルな概念を実行時に推論するだけでなく、パフォーマンスを改善するために介入し、正しい予測を行うことができる。
シミュレーションおよび実世界の協調競争型マルチエージェントゲームにおいて,政策性能とサンプル効率の利点を生かし,解釈可能性とトレーニング安定性の向上を図っている。
論文 参考訳(メタデータ) (2023-02-23T18:53:09Z) - Pessimism meets VCG: Learning Dynamic Mechanism Design via Offline
Reinforcement Learning [114.36124979578896]
オフライン強化学習アルゴリズムを用いて動的メカニズムを設計する。
我々のアルゴリズムは悲観主義の原理に基づいており、オフラインデータセットのカバレッジについて軽度な仮定しか必要としない。
論文 参考訳(メタデータ) (2022-05-05T05:44:26Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - On the model-based stochastic value gradient for continuous
reinforcement learning [50.085645237597056]
モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。
以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
論文 参考訳(メタデータ) (2020-08-28T17:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。