論文の概要: Robust Multi-Agent Path Finding under Observation Attacks: A Principled Adversarial-Plus-Smoothing Training Recipe
- arxiv url: http://arxiv.org/abs/2605.11469v1
- Date: Tue, 12 May 2026 03:33:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.550129
- Title: Robust Multi-Agent Path Finding under Observation Attacks: A Principled Adversarial-Plus-Smoothing Training Recipe
- Title(参考訳): 観測的攻撃下でのロバストなマルチエージェントパス発見:原則的対向型平滑化トレーニングレシピ
- Authors: Riad Ahmed,
- Abstract要約: 同一ネットワークと同一デプロイメントループを保持する2つのトレーニングレシピを提示するが、ポリシーは混乱した観察の下で維持される。
最初のレシピであるAdv-PPOは、自身の入力の最悪ケース摂動に対する共有ポリシーを訓練し、敵の摂動下でのパフォーマンスによってチェックポイントを選択する。
第二のレシピであるAdv-PPO+MACER(英語版)は、ランダム化平滑化の証明された半径に従って勾配が続く小さな政治上の滑らかさ項のチェックポイントである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decentralized multi-agent path finding (MAPF) routes a team of agents on a shared grid, each acting from its own local view. The standard solution trains one shared neural policy with Proximal Policy Optimization (PPO), a popular on-policy reinforcement learning algorithm. Such a policy works well on clean observations, but a small input perturbation on one agent often changes its action, which then blocks a neighbour, and the team jams. In this paper we present two training recipes that keep the same network and the same deployment loop, yet make the policy hold up under perturbed observations. The first recipe, Adv-PPO, trains the shared policy against worst-case perturbations of its own input and selects the checkpoint by performance under adversarial perturbation. The second recipe, Adv-PPO+MACER, fine-tunes that checkpoint with a small on-policy smoothness term whose gradient follows the certified radius of randomized smoothing. On POGEMA with 8x8 maps and four agents, the unprotected PPO policy reaches 95.8% clean success but only 2.5% under the strongest attack. Adv-PPO recovers worst-case success to 59.2% at one percentage point of clean cost. Adv-PPO+MACER recovers it to 77.5% +/- 6.0% across three independent seeds at less than one percentage point of clean cost. We support these numbers with per-attack curves, a certified action-stability sanity check (which measures the smoothed-policy wrapper, not the deployed argmax policy), and side-by-side rollout storyboards that show the failure mode and the fix inside one environment instance.
- Abstract(参考訳): 分散マルチエージェントパス探索(MAPF)は、エージェントのチームを共有グリッド上にルーティングする。
標準ソリューションは、人気のあるオンライン強化学習アルゴリズムであるPPO(Proximal Policy Optimization)で、共通のニューラルポリシをトレーニングする。
このようなポリシーはクリーンな観察でうまく機能するが、あるエージェントに対する小さな入力の摂動は、しばしばそのアクションを変更し、隣人をブロックし、チームはジャムする。
本稿では,同一のネットワークと同一のデプロイメントループを保持する2つのトレーニングレシピを提案する。
最初のレシピであるAdv-PPOは、自身の入力の最悪ケース摂動に対する共有ポリシーを訓練し、敵の摂動下でのパフォーマンスによってチェックポイントを選択する。
第二のレシピであるAdv-PPO+MACER(英語版)は、ランダム化平滑化の証明された半径に従って勾配が続く小さな政治上の滑らかさ項のチェックポイントである。
8x8の地図と4つのエージェントを持つPOGEMAでは、保護されていないPPOポリシーは95.8%のクリーンな成功を得たが、最強の攻撃を受けたのはわずか2.5%だった。
Adv-PPOは1パーセンテージのクリーンコストで最悪の成功を59.2%に回復する。
Adv-PPO+MACERは3つの独立種子の77.5%+/-6.0%をクリーンコストの1パーセント未満で回収する。
我々はこれらの数値を、攻撃毎の曲線、認証された行動安定度チェック(デプロイされたargmaxポリシーではなくスムーズな政治ラッパーを計測する)、一方の環境インスタンス内の障害モードと修正を示すサイドバイサイドのロールアウトストーリーボードでサポートする。
関連論文リスト
- See Less, Drive Better: Generalizable End-to-End Autonomous Driving via Foundation Models Stochastic Patch Selection [51.59559387222532]
エンドツーエンド自動運転の最近の進歩は、パッチアライメント機能で訓練されたポリシーが、アウト・オブ・ディストリビューション(OOD)よりも一般化していることを示している。
我々は、より堅牢で、一般化可能で、効率的な学習ポリシーのためのシンプルで効果的なアプローチである2.4-Patch-Selection(SPS)を提案する。
論文 参考訳(メタデータ) (2026-01-15T18:58:33Z) - Coverage Improvement and Fast Convergence of On-policy Preference Learning [67.36750525893514]
言語モデルアライメントのためのオンラインのオンラインプライオリティ学習アルゴリズムは、オフラインのアルゴリズムよりも大幅に優れている。
我々は,サンプリング政策の包括的範囲が政治訓練を通じてどのように進展するかを分析する。
一般機能クラス設定における報奨蒸留のための原則的オンライン方式を開発した。
論文 参考訳(メタデータ) (2026-01-13T10:46:06Z) - PRPO: Aligning Process Reward with Outcome Reward in Policy Optimization [15.965340493880701]
我々は、結果の信頼性とプロセスレベルのガイダンスを、批判のないフレームワークで組み合わせたプロセス相対政策最適化(PRPO)を導入する。
PRPOは意味的手がかりに基づいて推論シーケンスを分割し、PRMスコアをトークンレベルの利点に正規化し、それらの分布を結果の利点と整合させる。
MATH500では、PRPOはQwen2.5-Math-1.5Bの精度を61.2%から64.4%に改善した。
論文 参考訳(メタデータ) (2026-01-12T04:04:43Z) - A-3PO: Accelerating Asynchronous LLM Training with Staleness-aware Proximal Policy Approximation [2.5291809836356998]
我々は、政治外の修正を規制政策更新から切り離すための近親政策を導入する。
このポリシーでは、トレーニングの各ステップでネットワークをさらに前方通過する必要があるため、計算ボトルネックが発生します。
我々は,親近性ポリシが行動と対象ポリシの間に固定された信頼領域としてのみ機能するため,明示的な計算をせずに簡単な方法で近似することができることを観察した。
論文 参考訳(メタデータ) (2025-12-06T19:37:39Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Joint action loss for proximal policy optimization [0.0]
PPOは最先端のポリシー勾配アルゴリズムであり、Dota 2やHonor of Kingsのような複雑なコンピュータゲームにうまく適用されている。
関節と別個の確率を組み合わせた多作用混合損失を提案する。
当社のハイブリッドモデルは,OpenAIのPPOベンチマーク結果と比較して,異なる MuJoCo 環境で50%以上のパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-01-26T03:42:29Z) - You May Not Need Ratio Clipping in PPO [117.03368180633463]
Proximal Policy Optimization (PPO) 法は、複数のミニバッチ最適化エポックを1組のサンプルデータで反復的に実行することでポリシーを学習する。
比率クリッピングPPOは、ターゲットポリシーとサンプル収集に使用されるポリシーの確率比をクリップする一般的な変種である。
本論文では, この比クリッピングが有効に結合できないため, 良好な選択ではないことを示す。
ESPOは、多くのワーカーによる分散トレーニングに簡単にスケールアップでき、パフォーマンスも高いことを示す。
論文 参考訳(メタデータ) (2022-01-31T20:26:56Z) - The Surprising Effectiveness of MAPPO in Cooperative, Multi-Agent Games [67.47961797770249]
マルチエージェントPPO(MAPPO)は、集中型値関数を採用するマルチエージェントPPOバリアントである。
MAPPOは,3つの一般的なマルチエージェントテストベッドにおいて,最先端技術に匹敵する性能を実現していることを示す。
論文 参考訳(メタデータ) (2021-03-02T18:59:56Z) - Multi-Agent Trust Region Policy Optimization [34.91180300856614]
TRPOのポリシー更新は,マルチエージェントケースに対する分散コンセンサス最適化問題に変換可能であることを示す。
マルチエージェントTRPO(MATRPO)と呼ばれる分散MARLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-15T17:49:47Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。