Fugu-MT 論文翻訳(概要): M$^{2}$GRPO: Mamba-based Multi-Agent Group Relative Policy Optimization for Biomimetic Underwater Robots Pursuit

論文の概要: M$^{2}$GRPO: Mamba-based Multi-Agent Group Relative Policy Optimization for Biomimetic Underwater Robots Pursuit

arxiv url: http://arxiv.org/abs/2604.19404v1
Date: Tue, 21 Apr 2026 12:29:00 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-22 22:41:49.76537
Title: M$^{2}$GRPO: Mamba-based Multi-Agent Group Relative Policy Optimization for Biomimetic Underwater Robots Pursuit
Title（参考訳）: M$^{2}$GRPO:生物模倣水中ロボットのためのマルチエージェントグループ相対的ポリシー最適化
Authors: Yukai Feng, Zhiheng Wu, Zhengxing Wu, Junwen Gu, Junzhi Yu,
Abstract要約: マンバに基づくマルチエージェント群相対ポリシー最適化 (M$2$GRPO) を提案する。中央集権的訓練および分散実行パラダイムの下で、選択的な状態空間のMambaポリシーとグループ相対的なポリシー最適化を統合する。提案するフレームワークは,生物模倣ロボットシステムと協調的な水中追尾のための実用的でスケーラブルなソリューションを提供する。
参考スコア（独自算出の注目度）: 14.647568615794475
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Traditional policy learning methods in cooperative pursuit face fundamental challenges in biomimetic underwater robots, where long-horizon decision making, partial observability, and inter-robot coordination require both expressiveness and stability. To address these issues, a novel framework called Mamba-based multi-agent group relative policy optimization (M$^{2}$GRPO) is proposed, which integrates a selective state-space Mamba policy with group-relative policy optimization under the centralized-training and decentralized-execution (CTDE) paradigm. Specifically, the Mamba-based policy leverages observation history to capture long-horizon temporal dependencies and exploits attention-based relational features to encode inter-agent interactions, producing bounded continuous actions through normalized Gaussian sampling. To further improve credit assignment without sacrificing stability, the group-relative advantages are obtained by normalizing rewards across agents within each episode and optimized through a multi-agent extension of GRPO, significantly reducing the demand for training resources while enabling stable and scalable policy updates. Extensive simulations and real-world pool experiments across team scales and evader strategies demonstrate that M$^{2}$GRPO consistently outperforms MAPPO and recurrent baselines in both pursuit success rate and capture efficiency. Overall, the proposed framework provides a practical and scalable solution for cooperative underwater pursuit with biomimetic robot systems.
Abstract（参考訳）: 協調的追跡における従来の政策学習手法は、長期的意思決定、部分的観測可能性、ロボット間の協調が表現力と安定性の両方を必要とする生物模倣型水中ロボットにおいて根本的な課題に直面している。これらの課題に対処するため,M$^{2}$GRPO (Mumba-based multi-agent group relative policy optimization) と呼ばれる新しいフレームワークが提案されている。具体的には、マンバの政策は観察履歴を利用して長期の時間的依存関係を捉え、注意に基づく関係性を利用してエージェント間相互作用を符号化し、正規化されたガウスサンプリングによって境界付けられた連続的なアクションを生成する。安定を犠牲にすることなく、さらに信用割当を改善するために、各エピソード内のエージェント間で報酬を正規化し、GRPOのマルチエージェント拡張によって最適化し、安定かつスケーラブルなポリシー更新を実現しつつ、トレーニングリソースの需要を著しく低減し、グループ相対的優位性を得る。 M$^{2}$GRPOはMAPPOと繰り返しベースラインを追尾成功率と捕捉効率の両方で一貫して上回っていることを示す。提案するフレームワークは,生物模倣ロボットシステムと協調的水中追尾のための実用的でスケーラブルなソリューションを提供する。

関連論文リスト

PCHC: Enabling Preference Conditioned Humanoid Control via Multi-Objective Reinforcement Learning [50.63196995993855]
多目的強化学習(MORL)を活用してPCHC(Preference-Conditioned Humanoid Control)を実現する新しいフレームワークを提案する。当社のフレームワークは、単一の嗜好条件のポリシーを多種多様な行動を示すために有効である。
論文参考訳（メタデータ） (2026-03-25T07:55:37Z)
MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文参考訳（メタデータ） (2026-01-12T05:02:48Z)
GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization [133.27496265096445]
我々は,グループ相対的政策最適化を,その適合性を検討することなく,マルチリワード設定で適用する方法を示す。次に、これらの問題を解決するための新しい政策最適化手法であるグループ報酬分離正規化政策最適化(GDPO)を紹介する。 GDPOはGRPOを一貫して上回り、マルチリワード強化学習最適化の有効性と一般化性を示す。
論文参考訳（メタデータ） (2026-01-08T18:59:24Z)
One Step is Enough: Multi-Agent Reinforcement Learning based on One-Step Policy Optimization for Order Dispatch on Ride-Sharing Platforms [11.43941442981793]
MARLベースのライドシェアリングアプローチは、Q値またはV値の正確な推定に大きく依存している。本稿では,値関数推定をバイパスする2つの新しい方法を提案する。まず、GRPOをライドシェアリングに適応させ、PPOベースラインをグループ平均報酬に置き換えて、批判的推定誤差を排除する。第2に、GRPOによるグループ報酬情報の完全活用に触発されて、配車プラットフォーム向けのPPOフレームワークをカスタマイズし、均質なフリートの下では、1ステップの報酬のみを使用して最適な政策を訓練できることを示します。
論文参考訳（メタデータ） (2025-07-21T08:04:31Z)
Evolutionary Policy Optimization [47.30139909878251]
オンライン強化学習(RL)アルゴリズムは、高いパフォーマンスとトレーニング安定性のために広く利用されているが、より大きなバッチサイズでスケールするのに苦労している。本稿では、EAのスケーラビリティと多様性と、政策勾配の性能と安定性を組み合わせたハイブリッドである進化的政策最適化(EPO)を提案する。
論文参考訳（メタデータ） (2025-03-24T18:08:54Z)
A Multi-Fidelity Control Variate Approach for Policy Gradient Estimation [22.095132833345776]
強化学習アルゴリズムは、運用システムへの展開や高価な高忠実度シミュレーションによるトレーニングには実用的ではない。低忠実度シミュレータは、ゼロショット転送には大きすぎるとしても、RLトレーニングに有用なデータを提供することができる。ターゲット環境から少量のデータを混合する多要素ポリシーロボティクス(Gs)を提案する。
論文参考訳（メタデータ） (2025-03-07T18:58:23Z)
Hybrid Group Relative Policy Optimization: A Multi-Sample Approach to Enhancing Policy Optimization [0.0]
Hybrid Group Relative Policy Optimization (Hybrid GRPO)は強化学習フレームワークである。価値関数に基づく学習の安定性を維持しつつ、実証的なマルチサンプル動作評価を取り入れている。構造化された経験的サンプリングと強化学習安定性機構を統合することで、Hybrid GRPOは自律ロボット工学、金融モデリング、AI駆動制御システムに潜在的に応用できる。
論文参考訳（メタデータ） (2025-01-30T21:04:01Z)
Local Optimization Achieves Global Optimality in Multi-Agent Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文参考訳（メタデータ） (2023-05-08T16:20:03Z)
Faster Last-iterate Convergence of Policy Optimization in Zero-Sum Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文参考訳（メタデータ） (2022-10-03T16:05:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。