論文の概要: Value-Guidance MeanFlow for Offline Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2604.08174v1
- Date: Thu, 09 Apr 2026 12:31:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.916616
- Title: Value-Guidance MeanFlow for Offline Multi-Agent Reinforcement Learning
- Title(参考訳): オフラインマルチエージェント強化学習のためのバリューガイド平均流
- Authors: Teng Pang, Zhiqiang Dong, Yan Zhang, Rongjian Xu, Guoqiang Wu, Yilong Yin,
- Abstract要約: オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから最適なジョイントポリシーを学ぶことを目的としている。
本稿では,シンプルなフローベースのポリシー学習フレームワークであるValue Guidance Multi-agent MeanFlow Policy (VGM$2$P)を提案する。
VGM$2$Pは、グローバルなアドバンテージ値を使用してエージェントの協調をガイドし、最適なポリシー学習を条件付き行動クローンとして扱う。
- 参考スコア(独自算出の注目度): 42.476656442284835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline multi-agent reinforcement learning (MARL) aims to learn the optimal joint policy from pre-collected datasets, requiring a trade-off between maximizing global returns and mitigating distribution shift from offline data. Recent studies use diffusion or flow generative models to capture complex joint policy behaviors among agents; however, they typically rely on multi-step iterative sampling, thereby reducing training and inference efficiency. Although further research improves sampling efficiency through methods like distillation, it remains sensitive to the behavior regularization coefficient. To address the above-mentioned issues, we propose Value Guidance Multi-agent MeanFlow Policy (VGM$^2$P), a simple yet effective flow-based policy learning framework that enables efficient action generation with coefficient-insensitive conditional behavior cloning. Specifically, VGM$^2$P uses global advantage values to guide agent collaboration, treating optimal policy learning as conditional behavior cloning. Additionally, to improve policy expressiveness and inference efficiency in multi-agent scenarios, it leverages classifier-free guidance MeanFlow for both policy training and execution. Experiments on tasks with both discrete and continuous action spaces demonstrate that, even when trained solely via conditional behavior cloning, VGM$^2$P efficiently achieves performance comparable to state-of-the-art methods.
- Abstract(参考訳): オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから最適な共同ポリシを学習することを目的としており、グローバルリターンの最大化とオフラインデータからの分散シフトの緩和のトレードオフを必要とする。
近年の研究では、拡散またはフロー生成モデルを用いてエージェント間の複雑な共同政策の振る舞いを捉えるが、通常は多段階反復サンプリングに頼り、トレーニングと推論効率を低下させる。
さらなる研究は蒸留などの方法によってサンプリング効率を改善するが、それでも挙動正則化係数に敏感である。
上記の課題に対処するため,係数不感な条件付き行動クローニングによる効率的な行動生成を可能にする,シンプルなフローベース政策学習フレームワークであるValue Guidance Multi-agent MeanFlow Policy (VGM$^2$P)を提案する。
具体的には、VGM$^2$Pは、グローバルな優位値を用いてエージェント協調を誘導し、最適なポリシー学習を条件付き行動クローニングとして扱う。
さらに、マルチエージェントシナリオにおけるポリシー表現性と推論効率を改善するために、ポリシートレーニングと実行の両方に、分類器なしのガイダンスであるMeanFlowを活用する。
離散的および連続的な行動空間を持つタスクの実験は、条件付き行動クローニングによってのみ訓練されたとしても、VGM$^2$Pは最先端の手法に匹敵する性能を効率的に達成することを示した。
関連論文リスト
- Guided Flow Policy: Learning from High-Value Actions in Offline Reinforcement Learning [10.037416068775853]
本稿では,多段階フローマッチングポリシと蒸留ワンステップアクタを結合したガイドフローポリシーを提案する。
アクターは、重み付けされた振る舞いのクローンを通じてフローポリシーを指示し、データセットから高価値なアクションのクローンに集中する。
この相互誘導により、GFPは144の状態およびピクセルベースのタスクで最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2025-12-03T17:05:58Z) - Flow-Based Single-Step Completion for Efficient and Expressive Policy Learning [0.0]
そこで本研究では,中間フローサンプルから直接完了ベクトルを予測するために,フローマッチングを改良した生成ポリシーを提案する。
我々の手法はオフライン、オフライン、オンラインのRL設定に効果的にスケールし、スピードと適応性を大幅に向上させる。
我々はSSCPをゴール条件付きRLに拡張し、フラットポリシーが明確な階層的推論なしでサブゴナル構造を活用できるようにする。
論文 参考訳(メタデータ) (2025-06-26T16:09:53Z) - IMLE Policy: Fast and Sample Efficient Visuomotor Policy Learning via Implicit Maximum Likelihood Estimation [3.7584322469996896]
IMLEポリシーは、Implicit Maximum Likelihood Estimation (IMLE)に基づく新しい行動クローニング手法である
複雑なマルチモーダルな振る舞いを学ぶ上で、ベースラインメソッドのパフォーマンスに合わせるために、最小限のデモから効果的に学習し、平均で38%のデータを必要とします。
シミュレーションおよび実環境における多様な操作タスクに対するアプローチを検証し、データ制約下で複雑な振る舞いをキャプチャする能力を示す。
論文 参考訳(メタデータ) (2025-02-17T23:22:49Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - A2PO: Towards Effective Offline Reinforcement Learning from an Advantage-aware Perspective [29.977702744504466]
本稿では,オフライン学習におけるアドバンテージ・アウェア政策最適化(A2PO)手法を提案する。
A2POは条件付き変分自動エンコーダを用いて、絡み合った行動ポリシーの動作分布をアンタングルする。
D4RLベンチマークの単一品質データセットと混合品質データセットの両方で実施された実験では、A2POがA2POよりも優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2024-03-12T02:43:41Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。