論文の概要: Causal Knowledge Transfer for Multi-Agent Reinforcement Learning in Dynamic Environments
- arxiv url: http://arxiv.org/abs/2507.13846v1
- Date: Fri, 18 Jul 2025 11:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 20:43:26.275599
- Title: Causal Knowledge Transfer for Multi-Agent Reinforcement Learning in Dynamic Environments
- Title(参考訳): 動的環境におけるマルチエージェント強化学習のための因果知識伝達
- Authors: Kathrin Korte, Christian Medeiros Adriano, Sona Ghahremani, Holger Giese,
- Abstract要約: エージェントが協調行動を学ぶ環境において、マルチエージェント強化学習(MARL)は顕著な成功を収めた。
MARLの伝統的な知識伝達手法は一般化に苦慮しており、エージェントは適応するために高価な再訓練を必要とすることが多い。
本稿では,RLエージェントが非定常環境における経路の因果表現を学習し,共有することを可能にする因果的知識伝達フレームワークを提案する。
- 参考スコア(独自算出の注目度): 1.2787026473187368
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: [Context] Multi-agent reinforcement learning (MARL) has achieved notable success in environments where agents must learn coordinated behaviors. However, transferring knowledge across agents remains challenging in non-stationary environments with changing goals. [Problem] Traditional knowledge transfer methods in MARL struggle to generalize, and agents often require costly retraining to adapt. [Approach] This paper introduces a causal knowledge transfer framework that enables RL agents to learn and share compact causal representations of paths within a non-stationary environment. As the environment changes (new obstacles), agents' collisions require adaptive recovery strategies. We model each collision as a causal intervention instantiated as a sequence of recovery actions (a macro) whose effect corresponds to a causal knowledge of how to circumvent the obstacle while increasing the chances of achieving the agent's goal (maximizing cumulative reward). This recovery action macro is transferred online from a second agent and is applied in a zero-shot fashion, i.e., without retraining, just by querying a lookup model with local context information (collisions). [Results] Our findings reveal two key insights: (1) agents with heterogeneous goals were able to bridge about half of the gap between random exploration and a fully retrained policy when adapting to new environments, and (2) the impact of causal knowledge transfer depends on the interplay between environment complexity and agents' heterogeneous goals.
- Abstract(参考訳): [文脈]エージェントが協調行動を学ぶ環境において,マルチエージェント強化学習(MARL)は顕著な成功を収めた。
しかしながら、エージェント間で知識を伝達することは、目標を変えることなく、静止環境において困難である。
[証明]MARLにおける従来の知識伝達手法は一般化に苦慮しており、エージェントは適応するためにコストのかかる再訓練を必要とすることが多い。
[アプリケーション]本論文では,RLエージェントが非定常環境における経路の因果表現を学習し,共有することを可能にする因果的知識伝達フレームワークを提案する。
環境が変化するにつれて(新しい障害)、エージェントの衝突は適応的な回復戦略を必要とする。
我々は,各衝突を,エージェントの目標達成(累積報酬の最大化)を図りながら,障害を回避する方法の因果的知識に対応する一連の回復行動(マクロ)としてインスタンス化した因果的介入としてモデル化する。
このリカバリアクションマクロは、第2のエージェントからオンラインに転送され、ゼロショット方式で適用される。
その結果,(1)異種目標を持つエージェントは,新しい環境に適応する際のランダム探索と完全に再訓練された政策のギャップの約半分を埋めることができ,(2)因果的知識伝達の影響は,環境の複雑さとエージェントの不均一な目標との相互作用に依存することがわかった。
関連論文リスト
- Causal Mean Field Multi-Agent Reinforcement Learning [10.767740092703777]
平均場強化学習(MFRL)と呼ばれるフレームワークは、平均場理論を用いることでスケーラビリティの問題を軽減することができる。
このフレームワークには、非定常環境下での本質的な相互作用を識別する能力がない。
拡張性問題に対処するために,因果平均Q-ラーニング (CMFQ) と呼ばれるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-20T02:15:58Z) - COMBO-Grasp: Learning Constraint-Based Manipulation for Bimanual Occluded Grasping [56.907940167333656]
集積ロボットグルーピングは、表面衝突などの環境制約により、所望のグルーピングポーズが運動的に不可能な場所である。
従来のロボット操作アプローチは、人間が一般的に使用する非包括的または双対的戦略の複雑さに苦しむ。
本稿では,2つの協調ポリシーを活用する学習ベースアプローチであるCOMBO-Grasp(Constraint-based Manipulation for Bimanual Occluded Grasping)を紹介する。
論文 参考訳(メタデータ) (2025-02-12T01:31:01Z) - Factorised Active Inference for Strategic Multi-Agent Interactions [1.9389881806157316]
この目的に2つの補完的アプローチを組み込むことができる。
アクティブ推論フレームワーク(AIF)は、エージェントが環境内の信念や行動に適応するために生成モデルをどのように利用するかを記述する。
ゲーム理論は、潜在的に競合する目的を持つエージェント間の戦略的相互作用を定式化する。
本稿では,各エージェントが他のエージェントの内部状態に対する明示的かつ個別的な信念を維持し,それらを共同で戦略的計画に利用する生成モデルの因子化を提案する。
論文 参考訳(メタデータ) (2024-11-11T21:04:43Z) - Towards Generalizable Reinforcement Learning via Causality-Guided Self-Adaptive Representations [22.6449779859417]
汎用インテリジェンスには、タスク間の迅速な適応が必要です。
本稿では,分布だけでなく,環境空間も変化するシナリオを幅広く検討する。
我々はCSRと呼ばれる因果性誘導型自己適応表現に基づく手法を導入し、エージェントを効果的に一般化させる。
論文 参考訳(メタデータ) (2024-07-30T08:48:49Z) - Variable-Agnostic Causal Exploration for Reinforcement Learning [56.52768265734155]
強化学習のための新しいフレームワークVACERL(Variable-Agnostic Causal Exploration for Reinforcement Learning)を導入する。
本手法は,注目機構を用いて,重要変数に関連する重要な観測行動ステップを自動的に同定する。
これらのステップを接続する因果グラフを構築し、エージェントをタスク完了に対する因果的影響の大きい観察-作用ペアへと導く。
論文 参考訳(メタデータ) (2024-07-17T09:45:27Z) - DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement
Learning [84.22561239481901]
本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。
マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
論文 参考訳(メタデータ) (2023-12-10T06:03:57Z) - Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。
我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文 参考訳(メタデータ) (2021-12-03T19:23:48Z) - Multi-Agent Transfer Learning in Reinforcement Learning-Based
Ride-Sharing Systems [3.7311680121118345]
強化学習(Reinforcement Learning, RL)は、実世界の様々なシミュレーションタスクで使われている。
本稿では,固定ソースとターゲットロールを用いたTL転送パラメータの影響について検討する。
論文 参考訳(メタデータ) (2021-12-01T11:23:40Z) - Relative Distributed Formation and Obstacle Avoidance with Multi-agent
Reinforcement Learning [20.401609420707867]
マルチエージェント強化学習(MARL)に基づく分散生成・障害物回避手法を提案する。
提案手法は, 障害物回避における生成誤差, 生成収束率, オンパー成功率に関して, ベースラインと比較して高い性能を実現する。
論文 参考訳(メタデータ) (2021-11-14T13:02:45Z) - Language-guided Navigation via Cross-Modal Grounding and Alternate
Adversarial Learning [66.9937776799536]
新たなビジョン・アンド・ランゲージナビゲーション(VLN)問題は、見えない写真リアリスティック環境において、エージェントがターゲットの場所に向かうことを学習することを目的としている。
VLNの主な課題は、主に2つの側面から生じている: まず、エージェントは動的に変化する視覚環境に対応する言語命令の有意義な段落に出席する必要がある。
そこで本稿では,エージェントにテキストと視覚の対応性を追跡する機能を持たせるために,クロスモーダルグラウンドモジュールを提案する。
論文 参考訳(メタデータ) (2020-11-22T09:13:46Z) - RODE: Learning Roles to Decompose Multi-Agent Tasks [69.56458960841165]
ロールベースの学習は、ロールを使って複雑なタスクを分解することで、スケーラブルなマルチエージェント学習を実現するという約束を持っている。
本稿では,まず,環境および他のエージェントに対する影響に応じて協調行動空間をクラスタリングすることで,制約された役割行動空間に分解することを提案する。
これらの進歩により、我々の手法は、挑戦的なStarCraft IIマイクロマネジメントベンチマークを構成する14シナリオのうち10シナリオにおいて、現在の最先端のMARLアルゴリズムよりも優れています。
論文 参考訳(メタデータ) (2020-10-04T09:20:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。