論文の概要: Multi-Agent Model-Based Reinforcement Learning with Joint State-Action Learned Embeddings
- arxiv url: http://arxiv.org/abs/2602.12520v1
- Date: Fri, 13 Feb 2026 01:57:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.807201
- Title: Multi-Agent Model-Based Reinforcement Learning with Joint State-Action Learned Embeddings
- Title(参考訳): 連立状態認識型埋め込みを用いたマルチエージェントモデルに基づく強化学習
- Authors: Zhizun Wang, David Meger,
- Abstract要約: モデルに基づくマルチエージェント強化学習フレームワークを提案する。
我々は変分自動エンコーダで訓練された世界モデルを設計し、状態-作用学習埋め込みを用いてモデルを増強する。
想像された軌道とSALEに基づく行動値とを結合することにより、エージェントは彼らの選択が集団的な結果にどのように影響するかをより深く理解する。
- 参考スコア(独自算出の注目度): 10.36125908359289
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Learning to coordinate many agents in partially observable and highly dynamic environments requires both informative representations and data-efficient training. To address this challenge, we present a novel model-based multi-agent reinforcement learning framework that unifies joint state-action representation learning with imaginative roll-outs. We design a world model trained with variational auto-encoders and augment the model using the state-action learned embedding (SALE). SALE is injected into both the imagination module that forecasts plausible future roll-outs and the joint agent network whose individual action values are combined through a mixing network to estimate the joint action-value function. By coupling imagined trajectories with SALE-based action values, the agents acquire a richer understanding of how their choices influence collective outcomes, leading to improved long-term planning and optimization under limited real-environment interactions. Empirical studies on well-established multi-agent benchmarks, including StarCraft II Micro-Management, Multi-Agent MuJoCo, and Level-Based Foraging challenges, demonstrate consistent gains of our method over baseline algorithms and highlight the effectiveness of joint state-action learned embeddings within a multi-agent model-based paradigm.
- Abstract(参考訳): 多くのエージェントを部分的に観察可能で非常にダイナミックな環境で協調させる学習には、情報表現とデータ効率のトレーニングの両方が必要である。
この課題に対処するため、我々は、連立状態行動表現学習と想像的ロールアウトを融合したモデルに基づくマルチエージェント強化学習フレームワークを提案する。
本研究では、変分自動エンコーダで訓練された世界モデルを設計し、状態-作用学習埋め込み(SALE)を用いてモデルを拡張する。
SALEは、期待可能な将来のロールアウトを予測するイマジネーションモジュールと、混合ネットワークを介して個々のアクション値が結合されたジョイントエージェントネットワークの両方に注入され、ジョイントアクション値関数を推定する。
仮定された軌道とSALEに基づく行動値とを結合することにより、エージェントは彼らの選択が集団的な結果にどのように影響するかをより深く理解し、限られた実環境相互作用の下で長期的な計画と最適化を改善する。
StarCraft II Micro-Management、Multi-Agent MuJoCo、Level-Based Foraging Challengeなど、確立されたマルチエージェントベンチマークに関する実証的研究は、ベースラインアルゴリズムよりも、我々の手法が一貫した利得を示し、マルチエージェントモデルベースパラダイムにおける共同状態アクション学習埋め込みの有効性を強調している。
関連論文リスト
- MedSAM-Agent: Empowering Interactive Medical Image Segmentation with Multi-turn Agentic Reinforcement Learning [53.37068897861388]
MedSAM-Agentは、対話的なセグメンテーションを多段階の自律的な意思決定プロセスとして再構築するフレームワークである。
マルチターン・エンド・ツー・エンドの成果検証を統合した2段階のトレーニングパイプラインを開発した。
6つの医療モダリティと21のデータセットにわたる実験は、MedSAM-Agentが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2026-02-03T09:47:49Z) - Foundation Model for Skeleton-Based Human Action Understanding [56.89025287217221]
本稿では,統一骨格に基づくDense Representation Learningフレームワークを提案する。
USDRLはトランスフォーマーベースのDense Spatio-Temporal (DSTE)、Multi-Grained Feature Deorrelation (MG-FD)、Multi-Perspective Consistency Training (MPCT)で構成されている。
論文 参考訳(メタデータ) (2025-08-18T02:42:16Z) - Revisiting Multi-Agent World Modeling from a Diffusion-Inspired Perspective [54.77404771454794]
拡散モデルを用いたマルチエージェント強化学習(MARL)のためのフレキシブルで堅牢な世界モデルを開発する。
本手法はDiffusion-Inspired Multi-Agent World Model (DIMA) を用いて,複数のマルチエージェント制御ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-05-27T09:11:38Z) - Cooperative Multi-Agent Planning with Adaptive Skill Synthesis [16.228784877899976]
本稿では、視覚言語モデル(VLM)を動的スキルライブラリと統合し、分散化されたクローズドループ決定のための構造化通信を行う新しいマルチエージェントアーキテクチャを提案する。
デモからブートストラップされたスキルライブラリは、プラナー誘導タスクを通じて進化し、適応戦略を実現する。
我々は、その最先端のMARLベースラインに対して、対称シナリオと非対称シナリオの両方で強力な性能を示す。
論文 参考訳(メタデータ) (2025-02-14T13:23:18Z) - Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - VDFD: Multi-Agent Value Decomposition Framework with Disentangled World Model [10.36125908359289]
本稿では,Distangled World Modelを用いた新しいモデルベースマルチエージェント強化学習手法であるValue Decomposition Frameworkを提案する。
提案手法は, サンプル効率が高く, 多様なマルチエージェント学習タスクにおいて, 他のベースラインと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-08T22:12:43Z) - Multi-Agent Imitation Learning with Copulas [102.27052968901894]
マルチエージェント模倣学習は、観察と行動のマッピングを学習することで、デモからタスクを実行するために複数のエージェントを訓練することを目的としている。
本稿では,確率変数間の依存を捉える強力な統計ツールである copula を用いて,マルチエージェントシステムにおける相関関係と協調関係を明示的にモデル化する。
提案モデルでは,各エージェントの局所的行動パターンと,エージェント間の依存構造のみをフルにキャプチャするコプラ関数を別々に学習することができる。
論文 参考訳(メタデータ) (2021-07-10T03:49:41Z) - Modeling the Interaction between Agents in Cooperative Multi-Agent
Reinforcement Learning [2.9360071145551068]
対話型アクター・クリティック(IAC)と呼ばれる新しい協調型MARLアルゴリズムを提案する。
IACは政策と価値関数の観点からエージェントの相互作用をモデル化する。
連続制御タスクに値分解手法を拡張し、古典的な制御やマルチエージェント粒子環境を含むベンチマークタスク上でIACを評価する。
論文 参考訳(メタデータ) (2021-02-10T01:58:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。