論文の概要: A Recipe for Stable Offline Multi-agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.08399v1
- Date: Mon, 09 Mar 2026 13:57:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:16.18466
- Title: A Recipe for Stable Offline Multi-agent Reinforcement Learning
- Title(参考訳): 安定なオフラインマルチエージェント強化学習のための準備
- Authors: Dongsu Lee, Daehee Lee, Amy Zhang,
- Abstract要約: オフラインMARL設定における非線形値分解の不安定性の原因を解析する。
観測結果から,値スケールの増幅と不安定な最適化が得られた。
本稿では,ベルマンの不動点を変更せずにアクター批判訓練を安定化させる,簡易な手法であるスケール不変値正規化(SVN)を提案する。
- 参考スコア(独自算出の注目度): 17.0468810419383
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite remarkable achievements in single-agent offline reinforcement learning (RL), multi-agent RL (MARL) has struggled to adopt this paradigm, largely persisting with on-policy training and self-play from scratch. One reason for this gap comes from the instability of non-linear value decomposition, leading prior works to avoid complex mixing networks in favor of linear value decomposition (e.g., VDN) with value regularization used in single-agent setups. In this work, we analyze the source of instability in non-linear value decomposition within the offline MARL setting. Our observations confirm that they induce value-scale amplification and unstable optimization. To alleviate this, we propose a simple technique, scale-invariant value normalization (SVN), that stabilizes actor-critic training without altering the Bellman fixed point. Empirically, we examine the interaction among key components of offline MARL (e.g., value decomposition, value learning, and policy extraction) and derive a practical recipe that unlocks its full potential.
- Abstract(参考訳): 単一エージェントオフライン強化学習(RL)における顕著な成果にもかかわらず、マルチエージェントRL(MARL)は、このパラダイムの採用に苦慮しており、主に政治上のトレーニングとスクラッチからのセルフプレイで持続している。
このギャップの1つの理由は、非線形値分解の不安定性から来ており、以前の研究は複雑な混合ネットワークを回避し、線形値分解(例えば、VDN)と値正規化(英語版)が単一エージェントのセットアップで使われるようになった。
本研究では,オフラインMARL設定における非線形値分解の不安定性の原因を解析する。
観測結果から,値スケールの増幅と不安定な最適化が得られた。
これを軽減するため,ベルマンの不動点を変更せずにアクター・クリティカルトレーニングを安定化する,SVN(Scale-invariant value normalization)という簡単な手法を提案する。
実験的に、オフラインMARL(例えば、価値分解、価値学習、ポリシー抽出)の主要コンポーネント間の相互作用を検証し、その潜在能力を最大限に活用する実用的なレシピを導出する。
関連論文リスト
- Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning [88.42566960813438]
CalibRLは、制御可能な探索と専門家のガイダンスをサポートするハイブリッド政治RLVRフレームワークである。
CalibRLは政策エントロピーを誘導的に増加させ、目標分布を明らかにする。
ドメイン内設定とドメイン外設定の両方を含む8つのベンチマークの実験は、一貫した改善を示している。
論文 参考訳(メタデータ) (2026-02-22T07:23:36Z) - What Makes Value Learning Efficient in Residual Reinforcement Learning? [57.635661297706065]
残留強化学習(Residual reinforcement learning, RL)は、ベースを凍結し、境界修正のみを学習することにより、表現的事前訓練政策の安定したオンライン改善を可能にする。
本研究では,冷戦開始の病理学において,批判者が基本方針に関する価値景観の知識を欠いている点と,構造的スケールミスマッチという2つの主要なボトルネックを同定する。
残差RLにおける効率的な値学習を目的とした最小限のアプローチであるDAWNを提案する。
論文 参考訳(メタデータ) (2026-02-11T05:25:39Z) - Continuous-Time Value Iteration for Multi-Agent Reinforcement Learning [27.73410730631346]
我々は物理インフォームドニューラルネットワークを用いてHJBに基づく値関数を大規模に近似する。
これにより勾配の忠実度が向上し、より正確な値とより強力なポリシー学習が得られる。
提案手法は,既存の連続時間ベースラインと複雑なマルチエージェント・ダイナミクスのスケールを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2025-09-11T04:12:50Z) - B3C: A Minimalist Approach to Offline Multi-Agent Reinforcement Learning [2.9312156642007303]
オフライン強化学習(RL)において,政策評価中の未確認行動の選択による過大評価が大きな課題である
本稿では,批判クリッピング(B3C)を用いた行動クローン規則化を提案する。
B3Cは、様々なオフラインマルチエージェントベンチマークで最先端のアルゴリズムより優れている。
論文 参考訳(メタデータ) (2025-01-30T05:02:33Z) - Exploiting Structure in Offline Multi-Agent RL: The Benefits of Low Interaction Rank [52.831993899183416]
相互作用ランクという構造的仮定を導入し、相互作用ランクの低い関数が一般的なものよりも分布シフトに対して著しく堅牢であることを示す。
我々は,非正規化と非正規化学習と組み合わせることで,オフラインMARLにおける分散的,計算的,統計的に効率的な学習が可能であることを実証した。
論文 参考訳(メタデータ) (2024-10-01T22:16:22Z) - AlberDICE: Addressing Out-Of-Distribution Joint Actions in Offline
Multi-Agent RL via Alternating Stationary Distribution Correction Estimation [65.4532392602682]
オフライン強化学習(RL)の主な課題の1つは、データ収集ポリシーから逸脱した学習ポリシーから生じる分散シフトである。
これはしばしば、政策改善中のアウト・オブ・ディストリビューション(OOD)アクションを避けることで対処される。
本稿では,定常分布最適化に基づく個別エージェントの集中学習を行うオフラインMARLアルゴリズムAlberDICEを紹介する。
論文 参考訳(メタデータ) (2023-11-03T18:56:48Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。