論文の概要: Metric-Gradient Projection for Stable Multi-Agent Policy Learning
- arxiv url: http://arxiv.org/abs/2605.18809v1
- Date: Tue, 12 May 2026 01:02:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 21:37:32.349951
- Title: Metric-Gradient Projection for Stable Multi-Agent Policy Learning
- Title(参考訳): 安定多エージェント政策学習のための計量勾配投影法
- Authors: Zuyuan Zhang, Sizhe Tang, Mahdi Imani, Tian Lan,
- Abstract要約: 汎用マルチエージェント学習は、各エージェントのポリシー更新が他者が直面している最適化状況を変えるような、積み重ねた更新フィールドによって管理される。
我々は,Hodge型プロジェクションを最も近い距離勾配ポテンシャル流に演算するtextbfHPMLを提案する。
射影力学はリアプノフポテンシャルを許容し、明示的な加法的非ポテンシャル項を持つ平衡ギャップ境界を得ることを示す。
- 参考スコア(独自算出の注目度): 13.475979777462094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: General-sum multi-agent learning is often governed by a stacked update field in which each agent's policy update changes the optimization landscape faced by the others. This coupling can entangle an integrable component of collective improvement with cyclic interaction dynamics, leading to slow or unstable multi-agent learning. Existing approaches, such as regularization, credit assignment, and consensus methods, stabilize MARL through local or algorithmic modifications; HPML complements them by projecting the joint update field onto a metric-gradient component. We introduce \textbf{HPML} (\textbf{H}odge-\textbf{P}rojected \textbf{M}ulti-agent \textbf{L}earning), which views the joint update field of a multi-agent system as an element of an $L^2$ space of vector fields and computes a Hodge-type projection onto the closest metric-gradient potential flow. HPML follows the projected component as the update direction, yielding the closest metric-gradient field under the chosen metric and sampling measure. The projection is defined variationally, characterized by a Poisson-type equation, and implemented through graph-based and amortized neural realizations that recover projected directions from samples. We show that the projected dynamics admit a Lyapunov potential and yield equilibrium-gap bounds with an explicit additive non-potentiality term. Controlled experiments validate the geometric mechanism, and CTDE benchmarks show improved stability and normalized return when HPML is used as a plug-in projection layer in MARL pipelines.
- Abstract(参考訳): 一般的なマルチエージェント学習は、エージェントのポリシー更新が他者が直面している最適化の状況を変えるような、積み重ねた更新フィールドによって管理されることが多い。
この結合は、循環的相互作用のダイナミクスと総合的な改善の可積分成分を絡み合わせることができ、遅く、不安定なマルチエージェント学習をもたらす。
正規化、クレジット割り当て、コンセンサス手法といった既存のアプローチは、局所的またはアルゴリズム的な修正によってMARLを安定化させる。
我々は、多エージェントシステムの合同更新場をベクトル場の$L^2$空間の要素とみなし、最も近い距離勾配ポテンシャルフローに対するホッジ型射影を計算する。
HPMLは、予測された成分を更新方向として追従し、選択されたメートル法とサンプリング測度の下で最も近いメートル法勾配場を得る。
射影は変分的に定義され、ポアソン型方程式によって特徴づけられ、サンプルから投影された方向を復元するグラフベースおよび償却されたニューラルネットワークにより実装される。
射影力学はリアプノフポテンシャルを許容し、明示的な加法的非ポテンシャル項を持つ平衡ギャップ境界を得ることを示す。
制御された実験により幾何学的機構が検証され、HPMLがMARLパイプラインのプラグインプロジェクション層として使用される場合、CTDEベンチマークでは安定性と正規化リターンが改善された。
関連論文リスト
- CT-VoxelMap: Efficient Continuous-Time LiDAR-Inertial Odometry with Probabilistic Adaptive Voxel Mapping [15.34037575218496]
本稿では,B-スプラインの累積形式に基づく新しい連続時間オドメトリー法を提案する。
我々はIMU測定による前方伝播情報を用いて、オンラインの適合誤差を推定し、ハイブリッドな特徴ベースのボクセルマップ管理戦略を導入する。
提案手法は、複数の課題のある公開データセット上で評価され、ほとんどのシーケンスにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2026-04-04T14:27:54Z) - PhysicsAgentABM: Physics-Guided Generative Agent-Based Modeling [47.029742241618635]
大規模言語モデル(LLM)に基づくマルチエージェントシステムでは,表現的エージェント推論が可能であるが,拡張性は高く,時間段階整合状態遷移シミュレーションではキャリブレーションが不十分である。
本研究では,推論を行動コヒーレントなエージェントクラスタにシフトさせる物理AgentABMを提案する。
公衆衛生、ファイナンス、社会科学における実験は、機械的、神経的、LLMベースラインに対する事象時の精度と校正において一貫した利得を示している。
論文 参考訳(メタデータ) (2026-02-05T18:59:01Z) - Inverting Self-Organizing Maps: A Unified Activation-Based Framework [39.146761527401424]
我々は,SOMの活性化パターンを逆転させて,微妙な幾何学的条件下での正確な入力を復元できることを示す。
我々は,MUSIC (Manifold-Aware Unified SOM Inversion and Control) 更新ルールを導入する。
合成ガウス混合系, MNIST と Faces in the Wild を用いたアプローチを検証した。
論文 参考訳(メタデータ) (2026-01-20T11:02:54Z) - MISCGrasp: Leveraging Multiple Integrated Scales and Contrastive Learning for Enhanced Volumetric Grasping [15.127239823566194]
MISCGraspは,マルチスケール特徴抽出とコントラスト特徴強調を統合した容積把握方式である。
本稿では,Insight Transformer による高次特徴と低次特徴の問合せに基づく対話を提案し,Empower Transformer は高次特徴に選択的に対応している。
シミュレーションおよび実世界の環境における実験により、MISCGraspはテーブルトップデクラッタリングタスクにおいて、ベースラインおよび変種メソッドよりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2025-07-03T14:36:45Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z) - Global Convergence of Policy Gradient for Linear-Quadratic Mean-Field
Control/Game in Continuous Time [109.06623773924737]
線形二乗平均場制御とゲームに対するポリシー勾配法について検討する。
線形速度で最適解に収束し, 合成シミュレーションにより検証した。
論文 参考訳(メタデータ) (2020-08-16T06:34:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。