論文の概要: GRASP: Gradient Realignment via Active Shared Perception for Multi-Agent Collaborative Optimization
- arxiv url: http://arxiv.org/abs/2604.00717v1
- Date: Wed, 01 Apr 2026 10:26:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.939674
- Title: GRASP: Gradient Realignment via Active Shared Perception for Multi-Agent Collaborative Optimization
- Title(参考訳): GRASP: マルチエージェント協調最適化のためのアクティブ共有パーセプションによるグラディエント・リライメント
- Authors: Sihan Zhou, Tiantian He, Yifan Lu, Yaqing Hou, Yew-Soon Ong,
- Abstract要約: 非定常性は、同時ポリシー更新によって発生し、持続的な環境変動を引き起こす。
本稿では,一般ベルマン均衡を政策進化の安定目標として定義する新しい枠組みである,アクティブ共有知覚(GRASP)によるRealignmentを提案する。
- 参考スコア(独自算出の注目度): 41.52202306408042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Non-stationarity arises from concurrent policy updates and leads to persistent environmental fluctuations. Existing approaches like Centralized Training with Decentralized Execution (CTDE) and sequential update schemes mitigate this issue. However, since the perception of the policies of other agents remains dependent on sampling environmental interaction data, the agent essentially operates in a passive perception state. This inevitably triggers equilibrium oscillations and significantly slows the convergence speed of the system. To address this issue, we propose Gradient Realignment via Active Shared Perception (GRASP), a novel framework that defines generalized Bellman equilibrium as a stable objective for policy evolution. The core mechanism of GRASP involves utilizing the independent gradients of agents to derive a defined consensus gradient, enabling agents to actively perceive policy updates and optimize team collaboration. Theoretically, we leverage the Kakutani Fixed-Point Theorem to prove that the consensus direction $u^*$ guarantees the existence and attainability of this equilibrium. Extensive experiments on StarCraft II Multi-Agent Challenge (SMAC) and Google Research Football (GRF) demonstrate the scalability and promising performance of the framework.
- Abstract(参考訳): 非定常性は、同時ポリシー更新によって発生し、持続的な環境変動を引き起こす。
分散実行による集中トレーニング(CTDE)やシーケンシャルアップデートスキームなど、既存のアプローチではこの問題が軽減されている。
しかしながら、他のエージェントのポリシーに対する認識は、環境相互作用データのサンプリングに依存しているため、エージェントは基本的に受動的知覚状態で動作する。
これは必然的に平衡振動を引き起こし、系の収束速度を著しく遅くする。
この問題に対処するために我々は,一般ベルマン均衡を政策進化の安定目標として定義する新しいフレームワークである,アクティブ共有知覚(GRASP)によるグラディエント・リライメントを提案する。
GRASPの中核的なメカニズムは、エージェントの独立的な勾配を利用して決定されたコンセンサス勾配を導出することであり、エージェントはポリシー更新を積極的に知覚し、チームのコラボレーションを最適化することができる。
理論的には、角谷固定点定理を利用して、コンセンサス方向$u^*$がこの平衡の存在と到達性を保証する。
StarCraft II Multi-Agent Challenge (SMAC) と Google Research Football (GRF) に関する大規模な実験は、フレームワークのスケーラビリティと有望なパフォーマンスを実証している。
関連論文リスト
- HALyPO: Heterogeneous-Agent Lyapunov Policy Optimization for Human-Robot Collaboration [37.15750888195892]
ヘテロジニアスエージェントのリアプノフ政策最適化(HALyPO)を提案する。
HALyPOは、分散政策学習の安定化にLyapunov認証を使用している。
この証明された安定性は、コラボレーティブコーナーケースにおける一般化とロバスト性を改善することを示す。
論文 参考訳(メタデータ) (2026-03-04T05:26:13Z) - Socially-Weighted Alignment: A Game-Theoretic Framework for Multi-Agent LLM Systems [17.658093330392052]
本稿では,エージェントの個人目的と集団福祉の推定を補間することにより,推論時間決定の修正を行うゲーム理論フレームワークを提案する。
以上の結果から, SWAは, 過負荷下での需要増加のために, エージェントがもはや限界的なインセンティブを持たない, 臨界しきい値$*=(n-)/(n-1)$を誘導することを示した。
論文 参考訳(メタデータ) (2026-02-16T05:17:58Z) - GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping [63.33669214116784]
GRPO-Guardは、既存のGRPOフレームワークのシンプルで効果的な拡張である。
PPOクリッピングが有害な更新を適切に制限することを保証するため、バランスとステップ一貫性の重要度を回復する。
重いKL正則化に頼ることなく、暗黙の過最適化を実質的に緩和する。
論文 参考訳(メタデータ) (2025-10-25T14:51:17Z) - Iterative Refinement of Flow Policies in Probability Space for Online Reinforcement Learning [56.47948583452555]
固定ステップのEulerスキームによるフローマッチング推論プロセスの離散化は,最適輸送から変化するJordan-Kinderlehrer-Otto原理と整合する,というキーインサイトに基づいて,SWFP(Stepwise Flow Policy)フレームワークを紹介した。
SWFPは、大域的な流れを、プロキシメート分布間の小さな漸進的な変換の列に分解する。
この分解は、小さな流れブロックのカスケードを介して事前訓練された流れを微調整する効率的なアルゴリズムを導き、大きな利点をもたらす。
論文 参考訳(メタデータ) (2025-10-17T07:43:51Z) - Towards Fast Rates for Federated and Multi-Task Reinforcement Learning [34.34798425737858]
我々は、慎重に設計されたバイアス補正機構を備えた新しいフェデレーションポリシーアルゴリズムであるFast-FedPGを提案する。
勾配支配条件下では,本アルゴリズムは (i) 厳密な勾配で高速な線形収束を保証し, (ii) 雑音に富んだ政策勾配を持つエージェントの数に比例して線形スピードアップを楽しむサブ線形速度を保証している。
論文 参考訳(メタデータ) (2024-09-09T02:59:17Z) - Inducing Stackelberg Equilibrium through Spatio-Temporal Sequential
Decision-Making in Multi-Agent Reinforcement Learning [17.101534531286298]
我々は、すべてのエージェントが共有する条件付きハイパーネットワークに基づいて、ナッシュレベルのポリシーモデルを構築する。
このアプローチは対称的実行を伴う非対称なトレーニングを可能にし、各エージェントは、上位エージェントによる決定に最適な条件で応答する。
実験により,本手法は繰り返し行列ゲームシナリオにおいて,SEポリシーに効果的に収束することを示した。
論文 参考訳(メタデータ) (2023-04-20T14:47:54Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。