論文の概要: Multiagent Inverse Reinforcement Learning via Theory of Mind Reasoning
- arxiv url: http://arxiv.org/abs/2302.10238v1
- Date: Mon, 20 Feb 2023 19:07:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-22 17:29:53.833389
- Title: Multiagent Inverse Reinforcement Learning via Theory of Mind Reasoning
- Title(参考訳): 思考推論理論による多エージェント逆強化学習
- Authors: Haochen Wu, Pedro Sequeira, David V. Pynadath
- Abstract要約: 我々は,Multiagent Inverse Reinforcement Learning(MIRL)に対する新しいアプローチを提案する。
MIRLは、タスクパフォーマンス中に与えられた各チームの振る舞いの軌跡を導く報酬関数を推論することを目的としている。
シミュレーション2-player search-and-rescue 動作におけるアプローチの評価を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To understand how people interact with each other in collaborative settings,
especially in situations where individuals know little about their teammates,
Multiagent Inverse Reinforcement Learning (MIRL) aims to infer the reward
functions guiding the behavior of each individual given trajectories of a
team's behavior during task performance. Unlike current MIRL approaches, team
members \emph{are not} assumed to know each other's goals a priori, rather they
collaborate by adapting to the goals of others perceived by observing their
behavior, all while jointly performing a task. To address this problem, we
propose a novel approach to MIRL via Theory of Mind (MIRL-ToM). For each agent,
we first use ToM reasoning to estimate a posterior distribution over baseline
reward profiles given their demonstrated behavior. We then perform MIRL via
decentralized equilibrium by employing single-agent Maximum Entropy IRL to
infer a reward function for each agent, where we simulate the behavior of other
teammates according to the time-varying distribution over profiles. We evaluate
our approach in a simulated 2-player search-and-rescue operation where the goal
of the agents, playing different roles, is to search for and evacuate victims
in the environment. Results show that the choice of baseline profiles is
paramount to the recovery of ground-truth rewards, and MIRL-ToM is able to
recover the rewards used by agents interacting with either known and unknown
teammates.
- Abstract(参考訳): 特に個人がチームメイトについてほとんど知らない状況において、人々がどのように相互作用するかを理解するために、Multiagent Inverse Reinforcement Learning (MIRL)は、タスクパフォーマンス中の各チームの振る舞いの与えられた軌跡を導く報酬関数を推論することを目的としている。
現在のmirlのアプローチとは異なり、チームメンバはお互いのゴールを優先的に知っていると仮定しており、その代わりに、タスクを共同で実行しながら、自分の行動を観察することで認識される他者のゴールに適応することで協力する。
この問題に対処するために,MIRL-ToM(Theory of Mind)を用いた新しいアプローチを提案する。
各エージェントに対して、まずToM推論を用いて、その動作が実証された場合のベースライン報酬プロファイルの後方分布を推定する。
次に,単一エージェントの最大エントロピーirlを用いて,各エージェントに対する報酬関数を推定し,プロファイル上の時間変動分布に応じて他のチームメイトの挙動をシミュレートする。
本研究は,エージェントの目的が環境中の被害者を探索・避難させることを目標とした,シミュレーション2人探索救助作戦におけるアプローチを評価する。
その結果、ベースラインプロファイルの選択は、基礎的な報酬の回収に最重要であり、mirl-tomは、既知のチームメイトまたは未知のチームメイトと相互作用するエージェントが使用する報酬を回収することができる。
関連論文リスト
- DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement
Learning [84.22561239481901]
本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。
マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
論文 参考訳(メタデータ) (2023-12-10T06:03:57Z) - Emergent Behaviors in Multi-Agent Target Acquisition [0.0]
追従回避ゲームにおける強化学習(RL)を用いたマルチエージェントシステム(MAS)のシミュレーションを行う。
我々は、RL訓練された追跡者のポリシーを2つの異なる(非RL)分析戦略に置き換えることで、異なる敵シナリオを作成する。
このアプローチの斬新さは、基礎となるデータ規則性を明らかにする影響力のある機能セットの作成を伴います。
論文 参考訳(メタデータ) (2022-12-15T15:20:58Z) - ELIGN: Expectation Alignment as a Multi-Agent Intrinsic Reward [29.737986509769808]
本稿では,自己監督型固有報酬ELIGN-期待アライメントを提案する。
動物が周囲の動物と分散的に協力するのと同じように、期待アライメントで訓練されたエージェントは、隣人の期待に合う行動を学ぶ。
エージェント・コーディネーションは、エージェントがタスクを個別に分割し、コーディネーション・対称性を破り、敵を混乱させ、予測アライメントを通じて改善することを示す。
論文 参考訳(メタデータ) (2022-10-09T22:24:44Z) - Cooperative Online Learning in Stochastic and Adversarial MDPs [50.62439652257712]
我々は、協調的オンライン学習と敵対的マルコフ決定過程(MDP)について研究する。
各エピソードでは、$m$エージェントが同時にMDPと対話し、個人の後悔を最小限に抑えるために情報を共有する。
協調強化学習(RL)を非フレッシュランダム性, あるいは敵対的MDPで検討したのは, 初めてである。
論文 参考訳(メタデータ) (2022-01-31T12:32:11Z) - ToM2C: Target-oriented Multi-agent Communication and Cooperation with
Theory of Mind [18.85252946546942]
心の理論(Theory of Mind、ToM)は、効果的なコミュニケーションと協力が可能な社会的に知的なエージェントを構築する。
このアイデアは、協調ナビゲーションとマルチセンサーターゲットカバレッジという、2つの典型的な目標指向型マルチエージェントタスクで実証される。
論文 参考訳(メタデータ) (2021-10-15T18:29:55Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - AoI-Aware Resource Allocation for Platoon-Based C-V2X Networks via
Multi-Agent Multi-Task Reinforcement Learning [22.890835786710316]
本稿は,小隊の無線リソース管理を意識した情報年齢(AoI)の問題について検討する。
複数の自律型プラトンは、C-V2X通信技術を利用して、協力的認識メッセージ(CAM)をフォロワーに広める。
我々は,マルチエージェント強化学習(marl)に基づく分散リソース割当フレームワークを活用し,各小隊リーダ(pl)がエージェントとして行動し,環境と相互作用して最適方針を学ぶ。
論文 参考訳(メタデータ) (2021-05-10T08:39:56Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。