論文の概要: Offline RL with Smooth OOD Generalization in Convex Hull and its Neighborhood
- arxiv url: http://arxiv.org/abs/2506.08417v1
- Date: Tue, 10 Jun 2025 03:43:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:41.365617
- Title: Offline RL with Smooth OOD Generalization in Convex Hull and its Neighborhood
- Title(参考訳): 凸孔内におけるSmooth OODの一般化を伴うオフラインRLとその周辺
- Authors: Qingmao Yao, Zhichao Lei, Tianyuan Chen, Ziyue Yuan, Xuefan Chen, Jianxiang Liu, Faguo Wu, Xiao Zhang,
- Abstract要約: より優れた$Q$-value推定を実現するために、$Q$-functionの一般化を強化する新しい手法を提案する。
The safety generalization guarantees of the Convex Hull and its Neborhood (CHN), we propose the Smooth Bellman Operator (SBO)。
理論的には、SBOはCHN内のサンプル内およびOODアクションの真$Q$-値を近似する。
我々の実用アルゴリズムであるSmooth Q-function OOD Generalization (SQOG)は、過制約問題を経験的に緩和し、ほぼ正確な$Q$-value推定を実現する。
- 参考スコア(独自算出の注目度): 2.949090709665564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline Reinforcement Learning (RL) struggles with distributional shifts, leading to the $Q$-value overestimation for out-of-distribution (OOD) actions. Existing methods address this issue by imposing constraints; however, they often become overly conservative when evaluating OOD regions, which constrains the $Q$-function generalization. This over-constraint issue results in poor $Q$-value estimation and hinders policy improvement. In this paper, we introduce a novel approach to achieve better $Q$-value estimation by enhancing $Q$-function generalization in OOD regions within Convex Hull and its Neighborhood (CHN). Under the safety generalization guarantees of the CHN, we propose the Smooth Bellman Operator (SBO), which updates OOD $Q$-values by smoothing them with neighboring in-sample $Q$-values. We theoretically show that SBO approximates true $Q$-values for both in-sample and OOD actions within the CHN. Our practical algorithm, Smooth Q-function OOD Generalization (SQOG), empirically alleviates the over-constraint issue, achieving near-accurate $Q$-value estimation. On the D4RL benchmarks, SQOG outperforms existing state-of-the-art methods in both performance and computational efficiency.
- Abstract(参考訳): オフライン強化学習(RL)は、分散シフトに苦しむため、アウト・オブ・ディストリビューション(OOD)アクションに対する$Q$-valueの過大評価につながる。
既存の手法は制約を課すことでこの問題に対処するが、OOD領域を評価する際には、しばしば過度に保守的になり、これは$Q$関数の一般化を制約する。
この過度に制約された問題は、Q$-valueの推定が貧弱になり、政策改善を妨げる。
本稿では,Convex Hullとその周辺地域(CHN)におけるOOD領域における$Q$関数の一般化を向上し,より優れた$Q$値推定を実現するための新しいアプローチを提案する。
本稿では,CHNの安全性を保証したSmooth Bellman Operator (SBO)を提案する。
理論的には、SBOはCHN内のサンプル内およびOODアクションの真$Q$-値を近似する。
我々の実用アルゴリズムであるSmooth Q-function OOD Generalization (SQOG)は、過制約問題を経験的に緩和し、ほぼ正確な$Q$-value推定を実現する。
D4RLベンチマークでは、SQOGはパフォーマンスと計算効率の両方で既存の最先端の手法より優れている。
関連論文リスト
- Imagination-Limited Q-Learning for Offline Reinforcement Learning [18.8976065411658]
Imagination-Limited Q-learning (ILQ) 法を提案する。
具体的には、動的モデルを用いて、OODのアクション値を想像し、次に最大振る舞い値で想像値をクリップする。
本手法はD4RLベンチマークにおいて,多種多様なタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-05-18T03:05:21Z) - Strategically Conservative Q-Learning [89.17906766703763]
オフライン強化学習(RL)は、RLの実用性を拡張するための魅力的なパラダイムである。
オフラインRLの最大の難しさは、オフ・オブ・ディストリビューション(OOD)アクションに遭遇する際の近似誤差の影響を緩和することである。
本稿では, 予測が容易かつ困難であるOODデータを識別する, SCQ(Strategical conservative Q-Learning) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-06T22:09:46Z) - FLatS: Principled Out-of-Distribution Detection with Feature-Based
Likelihood Ratio Score [2.9914612342004503]
FLatSはOOD検出の原理的解法である。
我々は,FLatSが他のOOD検出手法を拡張可能な汎用フレームワークとして機能できることを実証した。
実験の結果、FLatSは人気のあるベンチマークで新しいSOTAを確立している。
論文 参考訳(メタデータ) (2023-10-08T09:16:46Z) - Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。
本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。
我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文 参考訳(メタデータ) (2023-05-01T02:37:59Z) - Improving Out-of-Distribution Detection via Epistemic Uncertainty
Adversarial Training [29.4569172720654]
我々は,ドロップアウトアンサンブルによって予測される不確実性の攻撃を組み込んだ,単純な対向訓練手法を開発した。
本手法は,OOD検出性能を標準データ上で向上させる(逆向きではない)とともに,ほぼランダムな推定性能から$geq 0.75$まで,標準化された部分AUCを改善する。
論文 参考訳(メタデータ) (2022-09-05T14:32:19Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Pessimistic Bootstrapping for Uncertainty-Driven Offline Reinforcement
Learning [125.8224674893018]
オフライン強化学習(RL)は、環境を探索することなく、以前に収集したデータセットからポリシーを学ぶことを目的としている。
オフポリシーアルゴリズムをオフラインRLに適用することは、通常、オフ・オブ・ディストリビューション(OOD)アクションによって引き起こされる外挿エラーによって失敗する。
本稿では,PBRL(Pepsimistic Bootstrapping for offline RL)を提案する。
論文 参考訳(メタデータ) (2022-02-23T15:27:16Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。