論文の概要: OM2P: Offline Multi-Agent Mean-Flow Policy
- arxiv url: http://arxiv.org/abs/2508.06269v1
- Date: Fri, 08 Aug 2025 12:38:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.231489
- Title: OM2P: Offline Multi-Agent Mean-Flow Policy
- Title(参考訳): OM2P:オフラインマルチエージェント平均フローポリシー
- Authors: Zhuoran Li, Xun Wang, Hai Zhong, Longbo Huang,
- Abstract要約: 我々は,OM2P(Offline Multi-Agent Mean-Flow Policy)を提案する。
OM2Pは、最大3.8倍のGPUメモリ使用量を削減し、トレーニング時間の最大10.8倍のスピードアップを実現している。
- 参考スコア(独自算出の注目度): 40.346958259814514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative models, especially diffusion and flow-based models, have been promising in offline multi-agent reinforcement learning. However, integrating powerful generative models into this framework poses unique challenges. In particular, diffusion and flow-based policies suffer from low sampling efficiency due to their iterative generation processes, making them impractical in time-sensitive or resource-constrained settings. To tackle these difficulties, we propose OM2P (Offline Multi-Agent Mean-Flow Policy), a novel offline MARL algorithm to achieve efficient one-step action sampling. To address the misalignment between generative objectives and reward maximization, we introduce a reward-aware optimization scheme that integrates a carefully-designed mean-flow matching loss with Q-function supervision. Additionally, we design a generalized timestep distribution and a derivative-free estimation strategy to reduce memory overhead and improve training stability. Empirical evaluations on Multi-Agent Particle and MuJoCo benchmarks demonstrate that OM2P achieves superior performance, with up to a 3.8x reduction in GPU memory usage and up to a 10.8x speed-up in training time. Our approach represents the first to successfully integrate mean-flow model into offline MARL, paving the way for practical and scalable generative policies in cooperative multi-agent settings.
- Abstract(参考訳): 生成モデル、特に拡散モデルとフローベースモデルは、オフラインのマルチエージェント強化学習において有望である。
しかし、このフレームワークに強力な生成モデルを統合することは、ユニークな課題をもたらす。
特に拡散とフローベースの政策は、反復生成プロセスによるサンプリング効率の低下に悩まされ、時間に敏感な設定やリソースに制約のある設定では現実的ではない。
これらの問題に対処するため,我々はOM2P (Offline Multi-Agent Mean-Flow Policy) を提案する。
生成目的と報酬最大化のミスアライメントに対処するために、慎重に設計された平均フローマッチング損失とQ関数の監督を統合する報酬対応最適化スキームを導入する。
さらに、メモリオーバーヘッドを低減し、トレーニング安定性を向上させるため、一般化された時間ステップ分布と微分自由推定戦略を設計する。
Multi-Agent ParticleとMuJoCoベンチマークの実証評価では、OM2PはGPUメモリ使用率を最大3.8倍、トレーニング時に最大10.8倍に向上している。
提案手法は, 平均フローモデルをオフラインMARLに統合し, 協調型マルチエージェント環境における実用的かつスケーラブルな生成ポリシーを実現するための最初の方法である。
関連論文リスト
- Flow-Based Single-Step Completion for Efficient and Expressive Policy Learning [0.0]
そこで本研究では,中間フローサンプルから直接完了ベクトルを予測するために,フローマッチングを改良した生成ポリシーを提案する。
我々の手法はオフライン、オフライン、オンラインのRL設定に効果的にスケールし、スピードと適応性を大幅に向上させる。
我々はSSCPをゴール条件付きRLに拡張し、フラットポリシーが明確な階層的推論なしでサブゴナル構造を活用できるようにする。
論文 参考訳(メタデータ) (2025-06-26T16:09:53Z) - Decision Flow Policy Optimization [53.825268058199825]
生成モデルは、複雑なマルチモーダルな動作分布を効果的にモデル化し、連続的な動作空間において優れたロボット制御を実現することができることを示す。
従来の手法は通常、データセットからの状態条件付きアクション分布に適合する振る舞いモデルとして生成モデルを採用する。
マルチモーダルな行動分布モデリングとポリシー最適化を統合した統合フレームワークDecision Flowを提案する。
論文 参考訳(メタデータ) (2025-05-26T03:42:20Z) - Offline Multi-agent Reinforcement Learning via Score Decomposition [51.23590397383217]
オフライン協調型マルチエージェント強化学習(MARL)は、分散シフトによる固有の課題に直面している。
この作業は、オフラインとオンラインのMARL間の分散ギャップを明示的に解決する最初の作業である。
論文 参考訳(メタデータ) (2025-05-09T11:42:31Z) - Flow-GRPO: Training Flow Matching Models via Online RL [75.70017261794422]
本稿では,オンライン強化学習(RL)をフローマッチングモデルに統合する最初の方法であるFlow-GRPOを提案する。
提案手法では, 1 つの主要な戦略を用いる:(1) 決定論的正規方程式 (ODE) を, 1 つの時点における原モデルの限界分布に一致する等価な微分方程式 (SDE) に変換するODE-to-SDE 変換と、(2) 元の推論タイムステップ数を保ちながらトレーニングの段階を減らし,
論文 参考訳(メタデータ) (2025-05-08T17:58:45Z) - Online Reward-Weighted Fine-Tuning of Flow Matching with Wasserstein Regularization [14.320131946691268]
本稿では,フローベース生成モデルのための,使いやすく,理論的に健全な微調整法を提案する。
提案手法は,オンライン報酬重み付け機構を導入することにより,データ多様体内の高次領域の優先順位付けをモデルに導出する。
本手法は,報酬と多様性のトレードオフを制御可能とし,最適な政策収束を実現する。
論文 参考訳(メタデータ) (2025-02-09T22:45:15Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。