論文の概要: Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning
- arxiv url: http://arxiv.org/abs/2406.08002v2
- Date: Fri, 12 Jul 2024 15:13:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 04:27:56.935561
- Title: Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning
- Title(参考訳): 階層型回帰モデルと計画による混合運動環境の適応性
- Authors: Yizhe Huang, Anji Liu, Fanqi Kong, Yaodong Yang, Song-Chun Zhu, Xue Feng,
- Abstract要約: 本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
- 参考スコア(独自算出の注目度): 51.52387511006586
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the recent successes of multi-agent reinforcement learning (MARL) algorithms, efficiently adapting to co-players in mixed-motive environments remains a significant challenge. One feasible approach is to hierarchically model co-players' behavior based on inferring their characteristics. However, these methods often encounter difficulties in efficient reasoning and utilization of inferred information. To address these issues, we propose Hierarchical Opponent modeling and Planning (HOP), a novel multi-agent decision-making algorithm that enables few-shot adaptation to unseen policies in mixed-motive environments. HOP is hierarchically composed of two modules: an opponent modeling module that infers others' goals and learns corresponding goal-conditioned policies, and a planning module that employs Monte Carlo Tree Search (MCTS) to identify the best response. Our approach improves efficiency by updating beliefs about others' goals both across and within episodes and by using information from the opponent modeling module to guide planning. Experimental results demonstrate that in mixed-motive environments, HOP exhibits superior few-shot adaptation capabilities when interacting with various unseen agents, and excels in self-play scenarios. Furthermore, the emergence of social intelligence during our experiments underscores the potential of our approach in complex multi-agent environments.
- Abstract(参考訳): 近年のマルチエージェント強化学習(MARL)アルゴリズムの成功にもかかわらず、混合モチベーション環境でのコプレーヤへの適応は大きな課題である。
一つの実現可能なアプローチは、その特性を推測し、階層的に共プレーヤの振る舞いをモデル化することである。
しかし、これらの手法は推論情報の効率的な推論と利用においてしばしば困難に直面する。
これらの問題に対処するために,混合モチベーション環境における未知のポリシーへのわずかな適応を可能にする,新しいマルチエージェント決定アルゴリズムである階層型対性モデリング・プランニング(HOP)を提案する。
HOPは階層的に2つのモジュールから構成されており、相手の目標を推論し、対応する目標条件付きポリシーを学習する対向モデリングモジュールと、モンテカルロ木探索(MCTS)を用いて最良の応答を識別する計画モジュールである。
提案手法は,他者の目標に対する信念をエピソード内を問わず更新し,相手のモデリングモジュールからの情報を用いて計画のガイドを行うことにより効率を向上する。
実験の結果, 混合運動環境においては, HOPは様々な未確認エージェントと相互作用する際, より優れた少数ショット適応能力を示し, 自己再生のシナリオにおいて優れていた。
さらに、実験中の社会知能の出現は、複雑なマルチエージェント環境における我々のアプローチの可能性を強調している。
関連論文リスト
- In Search for Architectures and Loss Functions in Multi-Objective Reinforcement Learning [0.6650227510403052]
多目的強化学習(MORL)は実世界のRL問題の複雑さに対処するために不可欠である。
MORLは、深層学習に基づく関数近似器による不安定な学習ダイナミクスのために困難である。
我々の研究は、モデルフリーのポリシー学習損失関数と異なるアーキテクチャ選択の影響を実証的に探求する。
論文 参考訳(メタデータ) (2024-07-23T19:17:47Z) - Meta Reasoning for Large Language Models [58.87183757029041]
大規模言語モデル(LLM)の新規かつ効率的なシステムプロセッシング手法であるメタ推論プロンプト(MRP)を導入する。
MRPは、各タスクの特定の要求に基づいて異なる推論メソッドを動的に選択し、適用するようLLMに誘導する。
総合的なベンチマークによりMPPの有効性を評価する。
論文 参考訳(メタデータ) (2024-06-17T16:14:11Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Joint Intrinsic Motivation for Coordinated Exploration in Multi-Agent
Deep Reinforcement Learning [0.0]
本稿では,エージェントが一括して斬新な行動を示すような報奨戦略を提案する。
ジムは連続した環境で機能するように設計されたノベルティの集中的な尺度に基づいて共同軌道に報いる。
その結果、最適戦略が高レベルの調整を必要とするタスクの解決には、共同探索が不可欠であることが示唆された。
論文 参考訳(メタデータ) (2024-02-06T13:02:00Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in
Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。
アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。
この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - Learning in Cooperative Multiagent Systems Using Cognitive and Machine
Models [1.0742675209112622]
マルチエージェントシステム(MAS)は、人間との協調と協調を必要とする多くのアプリケーションにとって重要である。
一つの大きな課題は、動的環境における独立したエージェントの同時学習と相互作用である。
我々はMulti-Agent IBLモデル(MAIBL)の3つの変種を提案する。
我々は,MAIBLモデルが学習速度を向上し,動的CMOTPタスクにおいて,現在のMADRLモデルと比較して様々な報酬設定でコーディネートを達成できることを実証した。
論文 参考訳(メタデータ) (2023-08-18T00:39:06Z) - Combining a Meta-Policy and Monte-Carlo Planning for Scalable Type-Based
Reasoning in Partially Observable Environments [21.548271801592907]
大規模部分観測可能な環境下での型に基づく推論のためのオンラインモンテカルロ木探索に基づく計画手法を提案する。
POTMMCPは、探索を指導し、信念を評価するための新しいメタ政治を取り入れており、より長い地平線に対してより効果的に探索することができる。
我々は,本手法が最適解に収束していることを示し,オンラインを多様なエージェント群に効果的に適応させることを実証的に実証した。
論文 参考訳(メタデータ) (2023-06-09T17:43:49Z) - Model-based Multi-agent Policy Optimization with Adaptive Opponent-wise
Rollouts [52.844741540236285]
マルチエージェント強化学習(MARL)におけるモデルベース手法について検討する。
AORPO(Adaptive Opponent-wise Rollout Policy)と呼ばれる新しい分散型モデルベースのMARL法を提案する。
論文 参考訳(メタデータ) (2021-05-07T16:20:22Z) - MAPPER: Multi-Agent Path Planning with Evolutionary Reinforcement
Learning in Mixed Dynamic Environments [30.407700996710023]
本稿では,進化的強化学習法(MAPPER)を用いた分散部分観測可能なマルチエージェントパス計画を提案する。
我々は、長距離ナビゲーションタスクを、グローバルプランナーの指導の下で、より簡単なサブタスクに分解する。
提案手法は,イメージベース表現を用いて動的障害物の挙動をモデル化し,均質性の仮定を伴わない混合動的環境におけるポリシーを訓練する。
論文 参考訳(メタデータ) (2020-07-30T20:14:42Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。