論文の概要: Robust and Diverse Multi-Agent Learning via Rational Policy Gradient
- arxiv url: http://arxiv.org/abs/2511.09535v1
- Date: Thu, 13 Nov 2025 02:01:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.610444
- Title: Robust and Diverse Multi-Agent Learning via Rational Policy Gradient
- Title(参考訳): 合理的ポリシーグラディエントによるロバスト・多言語学習
- Authors: Niklas Lauffer, Ameesh Shah, Micah Carroll, Sanjit A. Seshia, Stuart Russell, Michael Dennis,
- Abstract要約: 我々は,エージェントが合理的であることを保証することによって,自己破壊を避けるための敵最適化のための形式主義を開発する。
ラショナル・ポリシー・グラディエント(RPG)は、対戦対象を最適化するために対戦型シェーピング技術を使用するオリジナルゲームの修正版において、エージェントに自身の報酬を最大化するよう訓練する。
RPGは、もはや自己サボタージュの限界に従わない、さまざまな既存の敵最適化アルゴリズムを拡張し、敵の例を見つけ、堅牢性と適応性を改善し、多様なポリシーを学習することを可能にする。
- 参考スコア(独自算出の注目度): 14.745600697014753
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adversarial optimization algorithms that explicitly search for flaws in agents' policies have been successfully applied to finding robust and diverse policies in multi-agent settings. However, the success of adversarial optimization has been largely limited to zero-sum settings because its naive application in cooperative settings leads to a critical failure mode: agents are irrationally incentivized to self-sabotage, blocking the completion of tasks and halting further learning. To address this, we introduce Rationality-preserving Policy Optimization (RPO), a formalism for adversarial optimization that avoids self-sabotage by ensuring agents remain rational--that is, their policies are optimal with respect to some possible partner policy. To solve RPO, we develop Rational Policy Gradient (RPG), which trains agents to maximize their own reward in a modified version of the original game in which we use opponent shaping techniques to optimize the adversarial objective. RPG enables us to extend a variety of existing adversarial optimization algorithms that, no longer subject to the limitations of self-sabotage, can find adversarial examples, improve robustness and adaptability, and learn diverse policies. We empirically validate that our approach achieves strong performance in several popular cooperative and general-sum environments. Our project page can be found at https://rational-policy-gradient.github.io.
- Abstract(参考訳): エージェントのポリシーの欠陥を明示的に検索する逆最適化アルゴリズムは、マルチエージェント設定で堅牢で多様なポリシーを見つけるのに成功している。
しかし、敵の最適化の成功は大半がゼロサム設定に限られている、なぜなら、協調的環境における素早い適用が致命的な障害モードに繋がるからだ:エージェントは不合理的に自己破壊に動機づけられ、タスクの完了を阻止し、さらなる学習を停止する。
そこで本稿では, エージェントが合理的な状態を保つことによる自己破壊を回避するための, 対人最適化のための形式主義であるRationality-Preserving Policy Optimization (RPO)を導入する。
RPO を解決するために,エージェントが自身の報酬を最大化するよう訓練するRational Policy Gradient (RPG) を開発した。
RPGは、もはや自己サボタージュの限界に従わない、さまざまな既存の敵最適化アルゴリズムを拡張し、敵の例を見つけ、堅牢性と適応性を改善し、多様なポリシーを学習することを可能にする。
我々は,いくつかの一般的な協調環境および一般環境において,本手法が強い性能を発揮することを実証的に検証した。
私たちのプロジェクトページはhttps://rational-policy-gradient.github.io.comにある。
関連論文リスト
- Polychromic Objectives for Reinforcement Learning [63.37185057794815]
強化学習微調整(Reinforcement Learning fine-tuning, RLFT)は、下流タスクの事前訓練されたポリシーを改善するための主要なパラダイムである。
多様な世代の探索・改良を明示的に実施する政策手法の目的について紹介する。
この目的を最適化するために、PPO(Pximal Policy Optimization)をどのように適用できるかを示す。
論文 参考訳(メタデータ) (2025-09-29T19:32:11Z) - Policy Disruption in Reinforcement Learning:Adversarial Attack with Large Language Models and Critical State Identification [8.292056374554162]
強化学習(Reinforcement Learning, RL)は、ロボット工学や自律運転などの分野で大きな成功を収めている。
既存のアプローチはしばしば環境やポリシーの変更に依存し、実用性を制限する。
本稿では,環境の変化を伴わずにターゲットポリシーを誘導し,準最適動作を出力する敵攻撃手法を提案する。
論文 参考訳(メタデータ) (2025-07-24T05:52:06Z) - Adaptive Opponent Policy Detection in Multi-Agent MDPs: Real-Time Strategy Switch Identification Using Running Error Estimation [1.079960007119637]
OPS-DeMoは、動的エラー減衰を利用して相手のポリシーの変更を検出するオンラインアルゴリズムである。
提案手法は,プレデター・プレイ設定のような動的シナリオにおいて,PPO学習モデルよりも優れている。
論文 参考訳(メタデータ) (2024-06-10T17:34:44Z) - Acceleration in Policy Optimization [50.323182853069184]
我々は、楽観的かつ適応的な更新を通じて、政策改善のステップにフォレストを組み込むことにより、強化学習(RL)における政策最適化手法を加速するための統一パラダイムに向けて研究する。
我々は、楽観主義を、政策の将来行動の予測モデルとして定義し、適応性は、過度な予測や変化に対する遅延反応からエラーを軽減するために、即時かつ予測的な修正措置をとるものである。
我々は,メタグラディエント学習による適応型楽観的ポリシー勾配アルゴリズムを設計し,実証的なタスクにおいて,加速度に関連するいくつかの設計選択を実証的に強調する。
論文 参考訳(メタデータ) (2023-06-18T15:50:57Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Implicit Poisoning Attacks in Two-Agent Reinforcement Learning:
Adversarial Policies for Training-Time Attacks [21.97069271045167]
標的毒攻撃では、攻撃者はエージェントと環境の相互作用を操作して、ターゲットポリシーと呼ばれる利害政策を採用するように強制する。
本研究では,攻撃者がエージェントの有効環境を暗黙的に毒殺する2エージェント環境での標的毒殺攻撃について,仲間の方針を変更して検討した。
最適な攻撃を設計するための最適化フレームワークを開発し、攻撃のコストは、ピアエージェントが想定するデフォルトポリシーからどの程度逸脱するかを測定する。
論文 参考訳(メタデータ) (2023-02-27T14:52:15Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - DGPO: Discovering Multiple Strategies with Diversity-Guided Policy
Optimization [34.40615558867965]
与えられたタスクを解決するための複数の戦略を探索するオンラインアルゴリズムを提案する。
以前の作業とは異なり、単一の実行でトレーニングされた共有ポリシネットワークでこれを実現する。
実験結果から,本手法は多種多様な強化学習課題における多様な戦略を効果的に発見できることが示唆された。
論文 参考訳(メタデータ) (2022-07-12T15:57:55Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Preventing Imitation Learning with Adversarial Policy Ensembles [79.81807680370677]
模倣学習は、政策プライバシに関する問題を引き起こす専門家を観察することで、ポリシーを再現することができる。
プロプライエタリなポリシーをクローンする外部オブザーバに対して、どうすれば保護できるのか?
新しい強化学習フレームワークを導入し、準最適政策のアンサンブルを訓練する。
論文 参考訳(メタデータ) (2020-01-31T01:57:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。