論文の概要: Entity Divider with Language Grounding in Multi-Agent Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2210.13942v1
- Date: Tue, 25 Oct 2022 11:53:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 14:04:54.656641
- Title: Entity Divider with Language Grounding in Multi-Agent Reinforcement
Learning
- Title(参考訳): マルチエージェント強化学習における言語グラウンドによるエンティティ分割
- Authors: Ziluo Ding, Wanpeng Zhang, Junpeng Yue, Xiangjun Wang, Tiejun Huang,
and Zongqing Lu
- Abstract要約: マルチエージェント設定におけるポリシーの一般化を促進するための自然言語の利用について検討する。
マルチエージェント強化学習, エンティティディバイザ(EnDi)における言語基盤構築のための新しい枠組みを提案する。
EnDiは、エージェントがエンティティレベルで独立してサブゴナル分割を学習し、関連するエンティティに基づいて環境に作用することを可能にする。
- 参考スコア(独自算出の注目度): 28.619845209653274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the use of natural language to drive the generalization of
policies in multi-agent settings. Unlike single-agent settings, the
generalization of policies should also consider the influence of other agents.
Besides, with the increasing number of entities in multi-agent settings, more
agent-entity interactions are needed for language grounding, and the enormous
search space could impede the learning process. Moreover, given a simple
general instruction,e.g., beating all enemies, agents are required to decompose
it into multiple subgoals and figure out the right one to focus on. Inspired by
previous work, we try to address these issues at the entity level and propose a
novel framework for language grounding in multi-agent reinforcement learning,
entity divider (EnDi). EnDi enables agents to independently learn subgoal
division at the entity level and act in the environment based on the associated
entities. The subgoal division is regularized by opponent modeling to avoid
subgoal conflicts and promote coordinated strategies. Empirically, EnDi
demonstrates the strong generalization ability to unseen games with new
dynamics and expresses the superiority over existing methods.
- Abstract(参考訳): マルチエージェント設定におけるポリシーの一般化を促進するための自然言語の利用について検討する。
単一エージェントの設定とは異なり、ポリシーの一般化は他のエージェントの影響も考慮すべきである。
さらに、マルチエージェント設定におけるエンティティの増加に伴い、言語接地にはエージェントとエージェントの相互作用がさらに必要となり、膨大な検索スペースが学習プロセスを阻害する可能性がある。
さらに、単純な一般的な命令、例えば全ての敵を叩くように、エージェントはそれを複数のサブゴールに分解し、フォーカスする適切なものを見つける必要がある。
従来の研究から着想を得て,これらの課題をエンティティレベルで解決し,マルチエージェント強化学習(EnDi)における言語基盤の新たな枠組みを提案する。
endiにより、エージェントはエンティティレベルでサブゴールの分割を独立して学習し、関連するエンティティに基づいた環境で行動することができる。
サブゴール分割は、サブゴール紛争を避け、協調戦略を促進するために、反対モデリングによって規則化される。
経験的に、EnDiはゲームに新しいダイナミクスを持たせる強力な一般化能力を示し、既存の方法よりも優位性を表現している。
関連論文リスト
- Policy Learning with a Language Bottleneck [65.99843627646018]
PLLBB(Policy Learning with a Language Bottleneck)は、AIエージェントが言語規則を生成するためのフレームワークである。
PLLBBは、言語モデルによってガイドされるルール生成ステップと、エージェントがルールによってガイドされる新しいポリシーを学ぶ更新ステップとを交互に使用する。
2人のプレイヤーによるコミュニケーションゲーム、迷路解決タスク、および2つの画像再構成タスクにおいて、PLLBBエージェントはより解釈可能で一般化可能な振る舞いを学習できるだけでなく、学習したルールを人間のユーザと共有できることを示す。
論文 参考訳(メタデータ) (2024-05-07T08:40:21Z) - AgentVerse: Facilitating Multi-Agent Collaboration and Exploring
Emergent Behaviors [93.38830440346783]
本稿では,その構成をより高機能なシステムとして協調的に調整できるマルチエージェントフレームワークを提案する。
実験により,フレームワークが単一エージェントより優れたマルチエージェントグループを効果的に展開できることが実証された。
これらの振舞いの観点から、我々は、ポジティブなものを活用し、ネガティブなものを緩和し、マルチエージェントグループの協調可能性を改善するためのいくつかの戦略について議論する。
論文 参考訳(メタデータ) (2023-08-21T16:47:11Z) - Multi-Level Compositional Reasoning for Interactive Instruction
Following [24.581542880280203]
多レベル合成共鳴剤(MCR-Agent)
最上位レベルでは、高レベルポリシー構成制御器による言語命令に基づいて、人間の解釈可能なサブゴールのシーケンスを推測する。
中間レベルでは、ナビゲーションポリシーと様々な独立したインタラクションポリシーを交互に切り替えることで、エージェントのナビゲーションをマスターポリシーで識別的に制御する。
最も低いレベルでは、適切なインタラクションポリシーを用いて、対応するオブジェクトマスクによる操作動作を推論する。
論文 参考訳(メタデータ) (2023-08-18T08:38:28Z) - Retroformer: Retrospective Large Language Agents with Policy Gradient Optimization [103.70896967077294]
本稿では,レトロスペクティブモデルを学習することで,大規模言語エージェントを強化するための原則的枠組みを提案する。
提案するエージェントアーキテクチャは,事前学習した言語モデルを微調整するために,複数の環境やタスクにまたがる報酬から学習する。
様々なタスクの実験結果から、言語エージェントは時間とともに改善することが示された。
論文 参考訳(メタデータ) (2023-08-04T06:14:23Z) - Multi-agent Deep Covering Skill Discovery [50.812414209206054]
本稿では,複数エージェントの結合状態空間の予測被覆時間を最小化し,マルチエージェントオプションを構築するマルチエージェントDeep Covering Option Discoveryを提案する。
また、MARLプロセスにマルチエージェントオプションを採用するための新しいフレームワークを提案する。
提案アルゴリズムは,アテンション機構とエージェントの相互作用を効果的に把握し,マルチエージェントオプションの同定に成功した。
論文 参考訳(メタデータ) (2022-10-07T00:40:59Z) - ALMA: Hierarchical Learning for Composite Multi-Agent Tasks [21.556661319375255]
本稿では,構造化タスクを活用可能な汎用学習手法であるALMAを紹介する。
ALMAは高レベルのサブタスク割り当てポリシーと低レベルのエージェントポリシーを同時に学習する。
ALMAは様々な課題のある環境で高度な協調行動を学ぶことを実証する。
論文 参考訳(メタデータ) (2022-05-27T19:12:23Z) - Interpretable Reinforcement Learning with Multilevel Subgoal Discovery [77.34726150561087]
離散環境のための新しい強化学習モデルを提案する。
モデルでは、エージェントは確率的ルールの形で環境に関する情報を学習する。
学習には報酬関数は不要であり、エージェントは達成するための第一の目標のみを与える必要がある。
論文 参考訳(メタデータ) (2022-02-15T14:04:44Z) - Learning to Ground Multi-Agent Communication with Autoencoders [43.22048280036316]
コミュニケーションには共通言語であるラングア・フランカがエージェント間で必要である。
学習した表現において、言語を基底とする簡単な方法を示す。
標準表現学習アルゴリズムは,共通言語に到達するのに十分であることがわかった。
論文 参考訳(メタデータ) (2021-10-28T17:57:26Z) - A Policy Gradient Algorithm for Learning to Learn in Multiagent
Reinforcement Learning [47.154539984501895]
本稿では,マルチエージェント学習環境に固有の非定常的ポリシーダイナミクスを考慮に入れたメタマルチエージェントポリシー勾配定理を提案する。
これは、エージェント自身の非定常ポリシーダイナミクスと、環境内の他のエージェントの非定常ポリシーダイナミクスの両方を考慮するために、勾配更新をモデル化することによって達成される。
論文 参考訳(メタデータ) (2020-10-31T22:50:21Z) - The Emergence of Adversarial Communication in Multi-Agent Reinforcement
Learning [6.18778092044887]
多くの現実世界の問題は、複数の自律エージェントの調整を必要とする。
最近の研究は、複雑なマルチエージェント協調を可能にする明示的なコミュニケーション戦略を学ぶためのグラフニューラルネットワーク(GNN)の約束を示している。
一つの利己的なエージェントが高度に操作的なコミュニケーション戦略を学習し、協調的なエージェントチームを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2020-08-06T12:48:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。