論文の概要: Robust Adversarial Policy Optimization Under Dynamics Uncertainty
- arxiv url: http://arxiv.org/abs/2604.10974v2
- Date: Wed, 15 Apr 2026 07:15:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 13:09:57.429414
- Title: Robust Adversarial Policy Optimization Under Dynamics Uncertainty
- Title(参考訳): ダイナミクス不確実性を考慮したロバスト対応政策最適化
- Authors: Mintae Kim, Koushil Sreenath,
- Abstract要約: 強化学習(RL)ポリシーは、トレーニングとは異なるダイナミクスの下で失敗することが多い。
本稿では、ロバスト性-性能トレードオフを直接露呈する二重定式化を提案する。
結果として得られるフレームワークである、堅牢な逆ポリシー最適化(RAPO)は、ロバストなRLベースラインを上回っている。
- 参考スコア(独自算出の注目度): 8.729531978655737
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) policies often fail under dynamics that differ from training, a gap not fully addressed by domain randomization or existing adversarial RL methods. Distributionally robust RL provides a formal remedy but still relies on surrogate adversaries to approximate intractable primal problems, leaving blind spots that potentially cause instability and over-conservatism. We propose a dual formulation that directly exposes the robustness-performance trade-off. At the trajectory level, a temperature parameter from the dual problem is approximated with an adversarial network, yielding efficient and stable worst-case rollouts within a divergence bound. At the model level, we employ Boltzmann reweighting over dynamics ensembles, focusing on more adverse environments to the current policy rather than uniform sampling. The two components act independently and complement each other: trajectory-level steering ensures robust rollouts, while model-level sampling provides policy-sensitive coverage of adverse dynamics. The resulting framework, robust adversarial policy optimization (RAPO) outperforms robust RL baselines, improving resilience to uncertainty and generalization to out-of-distribution dynamics while maintaining dual tractability.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)のポリシーは、訓練と異なる力学、すなわち領域のランダム化や既存の逆RL法によって完全に対処されないギャップにおいて失敗することが多い。
分布的にロバストなRLは形式的な治療を提供するが、それでもサロゲートの敵に頼って難解な原始問題を近似させ、不安定性と過保守性を引き起こす可能性のある盲点を残している。
本稿では、ロバスト性-性能トレードオフを直接露呈する二重定式化を提案する。
軌道レベルでは、二重問題からの温度パラメータを対向ネットワークに近似し、分岐境界内で効率よく安定した最悪のロールアウトをもたらす。
モデルレベルでは、動的アンサンブルに対してボルツマン再重み付けを採用し、一様サンプリングよりも現在の方針に対してより有害な環境に焦点を当てる。
軌道レベルのステアリングはロバストなロールアウトを保証する一方、モデルレベルのサンプリングは、有害なダイナミクスのポリシーに敏感なカバレッジを提供する。
その結果、RAPOはロバストなRLベースラインを上回り、不確実性に対するレジリエンスを改善し、二重トラクタビリティを維持しながら分布外ダイナミクスを一般化する。
関連論文リスト
- Robust Regularized Policy Iteration under Transition Uncertainty [6.7431287237221085]
我々は、オフラインRLをロバストなポリシー最適化として定式化し、遷移カーネルを不確実性集合内の決定変数として扱う。
本稿では、抽出可能な最大最小二レベル目標を、抽出可能なKL正規化サロゲートに置き換えるロバスト正規化ポリシーイテレーション(RRPI)を提案する。
D4RLベンチマークの実験では、RRPIは高い平均性能を示し、最近のベースラインを上回っている。
論文 参考訳(メタデータ) (2026-03-10T08:18:27Z) - On the Plasticity and Stability for Post-Training Large Language Models [54.757672540381236]
塑性と安定性勾配の矛盾として根本原因を同定する。
本稿では,確率的衝突解決法(PCR)を提案する。
PCRはトレーニングの軌道を著しく滑らかにし、様々な推論タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-06T07:31:26Z) - Dual-Robust Cross-Domain Offline Reinforcement Learning Against Dynamics Shifts [68.18666621908898]
単一ドメインのオフライン強化学習(RL)は、しばしば限られたデータカバレッジに悩まされる。
ドメイン間のオフラインRLは、動的シフトを伴う他のドメインからの追加データを活用することでこの問題に対処する。
本稿では、クロスドメインオフラインRLにおける動的シフトに対する二重(列車時間とテスト時間の両方)ロバスト性について検討する。
論文 参考訳(メタデータ) (2025-12-02T07:20:39Z) - BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - Policy Regularized Distributionally Robust Markov Decision Processes with Linear Function Approximation [10.35045003737115]
分散シフトによる意思決定は、トレーニングとデプロイメント環境が異なる強化学習(RL)における中心的な課題である。
本稿では,モデルのないオンラインポリシー最適化手法DR-RPOを提案する。
DR-RPO は,ロバストな RL における準最適境界とサンプル効率を実現し,値に基づく手法の性能に適合することを示す。
論文 参考訳(メタデータ) (2025-10-16T02:56:58Z) - ADARL: Adaptive Low-Rank Structures for Robust Policy Learning under Uncertainty [28.291179179647795]
我々は、ロバスト性を改善する二段階最適化フレームワークであるtextbfAdaptive Rank Representation (AdaRL) を提案する。
下位レベルでは、AdaRLは、センチュロイドモデルの周りにあるワッサーシュタイン球からサンプリングされた力学を用いて、固定ランク制約の下でポリシー最適化を行う。
上層では、偏微分トレードオフのバランスをとるためにランクを適応的に調整し、ポリシーパラメータを低階多様体に投影する。
論文 参考訳(メタデータ) (2025-10-13T20:05:34Z) - Rectified Robust Policy Optimization for Model-Uncertain Constrained Reinforcement Learning without Strong Duality [53.525547349715595]
我々はRectified Robust Policy Optimization (RRPO) と呼ばれる新しいプライマリのみのアルゴリズムを提案する。
RRPOは双対の定式化に頼ることなく、主問題に直接作用する。
我々は、最もよく知られた下界と一致する複雑性を持つ、ほぼ最適な実現可能なポリシーに収束することを示す。
論文 参考訳(メタデータ) (2025-08-24T16:59:38Z) - Robust Reinforcement Learning using Adversarial Populations [118.73193330231163]
強化学習(Reinforcement Learning, RL)は、コントローラ設計に有効なツールであるが、堅牢性の問題に対処できる。
一つの逆数を使うことは、逆数の標準的なパラメトリゼーションの下での動的変動に一貫して堅牢性をもたらすわけではないことを示す。
本稿では,ロバスト RL の定式化に対する人口ベース増進法を提案する。
論文 参考訳(メタデータ) (2020-08-04T20:57:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。