論文の概要: Theory of Mind as Intrinsic Motivation for Multi-Agent Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2307.01158v2
- Date: Tue, 18 Jul 2023 18:04:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-20 16:57:16.850043
- Title: Theory of Mind as Intrinsic Motivation for Multi-Agent Reinforcement
Learning
- Title(参考訳): マルチエージェント強化学習における本質的動機づけとしての心の理論
- Authors: Ini Oguntola, Joseph Campbell, Simon Stepputtis, Katia Sycara
- Abstract要約: 本稿では,深いネットワークによってモデル化された政策の中で意味論的・人間解釈的信念を基礎づける手法を提案する。
各エージェントが他のエージェントの信念を予測する能力は,マルチエージェント強化学習の本質的な報奨信号として利用できることを提案する。
- 参考スコア(独自算出の注目度): 5.314466196448188
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to model the mental states of others is crucial to human social
intelligence, and can offer similar benefits to artificial agents with respect
to the social dynamics induced in multi-agent settings. We present a method of
grounding semantically meaningful, human-interpretable beliefs within policies
modeled by deep networks. We then consider the task of 2nd-order belief
prediction. We propose that ability of each agent to predict the beliefs of the
other agents can be used as an intrinsic reward signal for multi-agent
reinforcement learning. Finally, we present preliminary empirical results in a
mixed cooperative-competitive environment.
- Abstract(参考訳): 他者の精神状態をモデル化する能力は、人間の社会的知性にとって不可欠であり、マルチエージェント環境で引き起こされる社会的ダイナミクスに関して、人工エージェントにも同様の利点を提供することができる。
本稿では,深いネットワークによってモデル化された政策の中で意味論的・人間解釈的信念を基礎づける手法を提案する。
次に,2次信念予測の課題について考察する。
各エージェントが他のエージェントの信念を予測する能力は,マルチエージェント強化学習の本質的な報奨信号として利用できることを提案する。
最後に,複合協調競争環境における予備実験結果を示す。
関連論文リスト
- Position Paper: Agent AI Towards a Holistic Intelligence [53.35971598180146]
エージェントAI - 大きな基盤モデルをエージェントアクションに統合する具体的システム。
本稿では,エージェント・ファウンデーション・モデル(エージェント・ファウンデーション・モデル)を提案する。
論文 参考訳(メタデータ) (2024-02-28T16:09:56Z) - Multi-Agent Dynamic Relational Reasoning for Social Robot Navigation [55.65482030032804]
社会ロボットナビゲーションは、日常生活の様々な状況において有用であるが、安全な人間とロボットの相互作用と効率的な軌道計画が必要である。
本稿では, 動的に進化する関係構造を明示的に推論した系統的関係推論手法を提案する。
提案手法は,軌道予測器が将来の状態を生成するために使用する関係の進化を捉えるために,動的に進化する関係グラフとハイパーグラフを推論する。
論文 参考訳(メタデータ) (2024-01-22T18:58:22Z) - Contrastive learning-based agent modeling for deep reinforcement
learning [31.293496061727932]
エージェントモデリングは、マルチエージェントシステムにおけるインテリジェントマシンエージェントの適応ポリシーを設計する際に必須である。
我々は,エゴエージェントの訓練・実行時の局所的な観察のみに依存する,コントラスト学習に基づくエージェントモデリング(CLAM)手法を考案した。
CLAMは、各エピソードの冒頭から、リアルタイムに一貫した高品質なポリシー表現を生成することができる。
論文 参考訳(メタデータ) (2023-12-30T03:44:12Z) - DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement
Learning [84.22561239481901]
本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。
マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
論文 参考訳(メタデータ) (2023-12-10T06:03:57Z) - Concept Learning for Interpretable Multi-Agent Reinforcement Learning [5.179808182296037]
本稿では,ドメインエキスパートからの解釈可能な概念を,マルチエージェント強化学習を通じて学習したモデルに組み込む手法を提案する。
これにより、専門家は、結果のコンセプトモデルについて、これらのハイレベルな概念を実行時に推論するだけでなく、パフォーマンスを改善するために介入し、正しい予測を行うことができる。
シミュレーションおよび実世界の協調競争型マルチエージェントゲームにおいて,政策性能とサンプル効率の利点を生かし,解釈可能性とトレーニング安定性の向上を図っている。
論文 参考訳(メタデータ) (2023-02-23T18:53:09Z) - Learning Theory of Mind via Dynamic Traits Attribution [59.9781556714202]
本稿では,過去のトラジェクトリからアクターの潜在特性ベクトルを生成するニューラルToMアーキテクチャを提案する。
この特性ベクトルは、予測ニューラルネットワークの高速重み付けスキームを介して予測機構を乗法的に変調する。
実験により,高速重量はエージェントの特性をモデル化し,マインドリーディング能力を向上させるために優れた誘導バイアスを与えることが示された。
論文 参考訳(メタデータ) (2022-04-17T11:21:18Z) - ToM2C: Target-oriented Multi-agent Communication and Cooperation with
Theory of Mind [18.85252946546942]
心の理論(Theory of Mind、ToM)は、効果的なコミュニケーションと協力が可能な社会的に知的なエージェントを構築する。
このアイデアは、協調ナビゲーションとマルチセンサーターゲットカバレッジという、2つの典型的な目標指向型マルチエージェントタスクで実証される。
論文 参考訳(メタデータ) (2021-10-15T18:29:55Z) - Deep Interpretable Models of Theory of Mind For Human-Agent Teaming [0.7734726150561086]
我々は、他の観測対象の意図をモデル化するための解釈可能なモジュラー・ニューラル・フレームワークを開発する。
Minecraftの検索および救助タスクで、人間の参加者のデータに関する実験を行い、アプローチの有効性を実証します。
論文 参考訳(メタデータ) (2021-04-07T06:18:58Z) - Learning Human Rewards by Inferring Their Latent Intelligence Levels in
Multi-Agent Games: A Theory-of-Mind Approach with Application to Driving Data [18.750834997334664]
我々は、人間は有理論的であり、他人の意思決定過程を推論する際に異なる知能レベルを持っていると論じる。
学習中の人間の潜在知能レベルを推論する,新しいマルチエージェント逆強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-07T07:48:31Z) - Learning Latent Representations to Influence Multi-Agent Interaction [65.44092264843538]
エージェントのポリシーの潜在表現を学習するための強化学習に基づくフレームワークを提案する。
提案手法は代替手段よりも優れており,他のエージェントに影響を与えることを学習している。
論文 参考訳(メタデータ) (2020-11-12T19:04:26Z) - Intrinsic Motivation for Encouraging Synergistic Behavior [55.10275467562764]
スパース・リワード・シナジスティック・タスクにおける強化学習の探索バイアスとしての本質的モチベーションの役割について検討した。
私たちのキーとなる考え方は、シナジスティックなタスクにおける本質的なモチベーションのための優れた指針は、エージェントが自分自身で行動している場合、達成できない方法で世界に影響を与える行動を取ることである。
論文 参考訳(メタデータ) (2020-02-12T19:34:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。