論文の概要: Adversarial Diffusion for Robust Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.23846v1
- Date: Sun, 28 Sep 2025 12:34:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.483387
- Title: Adversarial Diffusion for Robust Reinforcement Learning
- Title(参考訳): ロバスト強化学習のための逆拡散
- Authors: Daniele Foffano, Alessio Russo, Alexandre Proutiere,
- Abstract要約: 我々はロバスト強化学習(AD-RRL)のための逆拡散を導入する。
AD-RRLは拡散過程を導出し、トレーニング中に最悪の場合の軌跡を生成し、累積リターンの条件値(CVaR)を効果的に最適化する。
標準ベンチマークにおける実験結果から、AD-RRLは既存のロバストなRL法と比較して、優れたロバスト性と性能を発揮することが示された。
- 参考スコア(独自算出の注目度): 46.44328012099217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robustness to modeling errors and uncertainties remains a central challenge in reinforcement learning (RL). In this work, we address this challenge by leveraging diffusion models to train robust RL policies. Diffusion models have recently gained popularity in model-based RL due to their ability to generate full trajectories "all at once", mitigating the compounding errors typical of step-by-step transition models. Moreover, they can be conditioned to sample from specific distributions, making them highly flexible. We leverage conditional sampling to learn policies that are robust to uncertainty in environment dynamics. Building on the established connection between Conditional Value at Risk (CVaR) optimization and robust RL, we introduce Adversarial Diffusion for Robust Reinforcement Learning (AD-RRL). AD-RRL guides the diffusion process to generate worst-case trajectories during training, effectively optimizing the CVaR of the cumulative return. Empirical results across standard benchmarks show that AD-RRL achieves superior robustness and performance compared to existing robust RL methods.
- Abstract(参考訳): 誤りや不確実性をモデル化するロバストさは、強化学習(RL)における中心的な課題である。
本研究では、拡散モデルを利用してロバストなRLポリシーをトレーニングすることで、この問題に対処する。
拡散モデルは、ステップ・バイ・ステップの遷移モデルに典型的な複雑な誤差を緩和し、全軌道を「一度に」生成する能力により、モデルベースのRLで最近人気を博している。
さらに、特定の分布からサンプルを採取することができるため、非常に柔軟である。
我々は条件付きサンプリングを利用して環境力学における不確実性に頑健なポリシーを学習する。
CVaR最適化とロバスト強化学習のための適応拡散(Adversarial Diffusion for Robust Reinforcement Learning,AD-RRL)を導入する。
AD-RRLは拡散過程を導出し、トレーニング中に最悪の場合の軌跡を発生させ、累積戻りのCVaRを効果的に最適化する。
標準ベンチマークにおける実験結果から、AD-RRLは既存のロバストなRL法と比較して、優れたロバスト性と性能を発揮することが示された。
関連論文リスト
- RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [86.30192066451256]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。
RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。
提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文 参考訳(メタデータ) (2025-07-31T23:55:29Z) - Distributionally Robust Learning in Survival Analysis [6.946903076677842]
我々は、分散ロバスト学習(DRL)アプローチをCoxレグレッションに組み込む革新的なアプローチを導入する。
DRLフレームワークをワッサーシュタイン距離に基づく曖昧性集合で定式化することにより、基礎となるデータ分布の仮定に敏感でない変種コックスモデルを開発する。
従来の手法と比較して,予測精度とロバスト性の観点から,回帰モデルが優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2025-06-02T06:11:22Z) - VARD: Efficient and Dense Fine-Tuning for Diffusion Models with Value-based RL [28.95582264086289]
VAlue-based Reinforced Diffusion (VARD) は、中間状態から報酬の期待を予測する値関数を初めて学習する新しい手法である。
提案手法は,バックプロパゲーションによる効果的な,安定したトレーニングを可能にしつつ,事前訓練されたモデルに近づき続ける。
論文 参考訳(メタデータ) (2025-05-21T17:44:37Z) - Avoiding mode collapse in diffusion models fine-tuned with reinforcement learning [0.0]
強化学習(RL)による微調整基礎モデルは、下流の目標に整合する上で有望であることが証明されている。
拡散モデル (DM) の階層的性質を生かし, 各エポックでRL法で動的に訓練する。
HRFで訓練したモデルは、下流タスクにおける多様性の保存性を向上し、微調整の堅牢性を高め、平均報酬を損なうことなく達成できることが示される。
論文 参考訳(メタデータ) (2024-10-10T19:06:23Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。