論文の概要: Automatic Constraint Policy Optimization based on Continuous Constraint Interpolation Framework for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2601.23010v1
- Date: Fri, 30 Jan 2026 14:21:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.494507
- Title: Automatic Constraint Policy Optimization based on Continuous Constraint Interpolation Framework for Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習のための連続制約補間フレームワークに基づく制約自動最適化
- Authors: Xinchen Han, Qiuyang Fang, Hossam Afifi, Michel Marot,
- Abstract要約: オフライン強化学習(RL)は、パフォーマンスを形作るためのポリシー制約に依存している。
既存のほとんどのメソッドは単一の制約ファミリにコミットします。
本稿では,統合最適化フレームワークであるContinuous Constraint Interpolation (CCI)を提案する。
- 参考スコア(独自算出の注目度): 2.0719232729184145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline Reinforcement Learning (RL) relies on policy constraints to mitigate extrapolation error, where both the constraint form and constraint strength critically shape performance. However, most existing methods commit to a single constraint family: weighted behavior cloning, density regularization, or support constraints, without a unified principle that explains their connections or trade-offs. In this work, we propose Continuous Constraint Interpolation (CCI), a unified optimization framework in which these three constraint families arise as special cases along a common constraint spectrum. The CCI framework introduces a single interpolation parameter that enables smooth transitions and principled combinations across constraint types. Building on CCI, we develop Automatic Constraint Policy Optimization (ACPO), a practical primal--dual algorithm that adapts the interpolation parameter via a Lagrangian dual update. Moreover, we establish a maximum-entropy performance difference lemma and derive performance lower bounds for both the closed-form optimal policy and its parametric projection. Experiments on D4RL and NeoRL2 demonstrate robust gains across diverse domains, achieving state-of-the-art performance overall.
- Abstract(参考訳): オフライン強化学習(RL)は、制約形式と制約強度の両方が性能を批判的に形作る外挿誤差を軽減するために、ポリシー制約に依存する。
しかし、既存のほとんどのメソッドは単一の制約ファミリにコミットする:重み付けされた振舞いのクローニング、密度正規化、あるいはサポートの制約。
本研究では,これら3つの制約族を共通制約スペクトルに沿って特殊ケースとして生成する統一最適化フレームワークである連続制約補間(CCI)を提案する。
CCIフレームワークは、制約タイプ間のスムーズな遷移と原則化された組み合わせを可能にする、単一の補間パラメータを導入している。
CCIに基づいて,ラグランジアン双対更新による補間パラメータを適応する実用的原始双対アルゴリズムであるAutomatic Constraint Policy Optimization (ACPO)を開発した。
さらに、最大エントロピー性能差補題を確立し、閉形式最適方針とパラメトリック射影の両方に対して性能の低い境界を導出する。
D4RLとNeoRL2の実験は、さまざまな領域で堅牢なゲインを示し、全体的な最先端のパフォーマンスを実現している。
関連論文リスト
- Decoupling Constraint from Two Direction in Evolutionary Constrained Multi-objective Optimization [26.967831462095067]
2方向からの分離制約(DCF2D)という新しいアルゴリズムを提案する。
周期的に制約結合を検出し、適切な探索方向で各制約に対して補助的な集団を生成する。
7つの挑戦的なCMOPベンチマークスイートと実際のCMOPのコレクションの実験は、DCF2Dが5つの最先端のCMOEAを上回っていることを示している。
論文 参考訳(メタデータ) (2025-12-30T02:22:32Z) - Adaptive Neighborhood-Constrained Q Learning for Offline Reinforcement Learning [52.03884701766989]
オフライン強化学習(RL)アルゴリズムは、通常、アクション選択に制約を課す。
本稿では,Bellmanターゲットにおける行動選択を,データセットアクションの近傍の結合に制限する新しい地区制約を提案する。
我々は,この制約を満たす目標動作を用いてQ学習を行うための,単純で効果的なアルゴリズムであるAdaptive Neighborhood-Constrained Q Learning(ANQ)を開発した。
論文 参考訳(メタデータ) (2025-11-04T13:42:05Z) - Rectified Robust Policy Optimization for Model-Uncertain Constrained Reinforcement Learning without Strong Duality [53.525547349715595]
我々はRectified Robust Policy Optimization (RRPO) と呼ばれる新しいプライマリのみのアルゴリズムを提案する。
RRPOは双対の定式化に頼ることなく、主問題に直接作用する。
我々は、最もよく知られた下界と一致する複雑性を持つ、ほぼ最適な実現可能なポリシーに収束することを示す。
論文 参考訳(メタデータ) (2025-08-24T16:59:38Z) - One-Shot Safety Alignment for Large Language Models via Optimal Dualization [64.52223677468861]
本稿では,制約付きアライメントを等価な非制約アライメント問題に還元する双対化の観点を提案する。
我々は、閉形式を持つ滑らかで凸な双対函数を事前に最適化する。
我々の戦略は、モデルベースと嗜好ベースの設定における2つの実用的なアルゴリズムに導かれる。
論文 参考訳(メタデータ) (2024-05-29T22:12:52Z) - A Dual Perspective of Reinforcement Learning for Imposing Policy Constraints [0.0]
我々は、価値ベースおよびアクター批判的強化学習法において、汎用的な原始双対フレームワークを使用する。
得られた二重定式化は、学習されたポリシーにさらなる制約を与えるのに特に有用であることが判明した。
トレーニングを通じて自動的に処理されるポリシー制約の様々な組み合わせをサポートする実用的なアルゴリズムが導出される。
論文 参考訳(メタデータ) (2024-04-25T09:50:57Z) - Double Duality: Variational Primal-Dual Policy Optimization for
Constrained Reinforcement Learning [132.7040981721302]
本研究では,訪問尺度の凸関数を最小化することを目的として,制約付き凸決定プロセス(MDP)について検討する。
制約付き凸MDPの設計アルゴリズムは、大きな状態空間を扱うなど、いくつかの課題に直面している。
論文 参考訳(メタデータ) (2024-02-16T16:35:18Z) - Constrained Proximal Policy Optimization [36.20839673950677]
制約付き近似ポリシー最適化(CPPO)という新しい一階法を提案する。
提案手法は,(1)実現可能な領域(E段階)における最適政策分布を計算し,2)E段階(M段階)において得られた最適政策に対して,現在の政策を調整するための第1次更新を行う,という2つのステップで解決するための期待最大化フレームワークを統合する。
複雑で不確実な環境で実施した実証実験により,提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2023-05-23T16:33:55Z) - CRPO: A New Approach for Safe Reinforcement Learning with Convergence
Guarantee [61.176159046544946]
安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。
これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
論文 参考訳(メタデータ) (2020-11-11T16:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。