論文の概要: Adaptive Neighborhood-Constrained Q Learning for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.02567v1
- Date: Tue, 04 Nov 2025 13:42:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:06.05208
- Title: Adaptive Neighborhood-Constrained Q Learning for Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習のための適応的近隣制約Q学習
- Authors: Yixiu Mao, Yun Qu, Qi Wang, Xiangyang Ji,
- Abstract要約: オフライン強化学習(RL)アルゴリズムは、通常、アクション選択に制約を課す。
本稿では,Bellmanターゲットにおける行動選択を,データセットアクションの近傍の結合に制限する新しい地区制約を提案する。
我々は,この制約を満たす目標動作を用いてQ学習を行うための,単純で効果的なアルゴリズムであるAdaptive Neighborhood-Constrained Q Learning(ANQ)を開発した。
- 参考スコア(独自算出の注目度): 52.03884701766989
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning (RL) suffers from extrapolation errors induced by out-of-distribution (OOD) actions. To address this, offline RL algorithms typically impose constraints on action selection, which can be systematically categorized into density, support, and sample constraints. However, we show that each category has inherent limitations: density and sample constraints tend to be overly conservative in many scenarios, while the support constraint, though least restrictive, faces challenges in accurately modeling the behavior policy. To overcome these limitations, we propose a new neighborhood constraint that restricts action selection in the Bellman target to the union of neighborhoods of dataset actions. Theoretically, the constraint not only bounds extrapolation errors and distribution shift under certain conditions, but also approximates the support constraint without requiring behavior policy modeling. Moreover, it retains substantial flexibility and enables pointwise conservatism by adapting the neighborhood radius for each data point. In practice, we employ data quality as the adaptation criterion and design an adaptive neighborhood constraint. Building on an efficient bilevel optimization framework, we develop a simple yet effective algorithm, Adaptive Neighborhood-constrained Q learning (ANQ), to perform Q learning with target actions satisfying this constraint. Empirically, ANQ achieves state-of-the-art performance on standard offline RL benchmarks and exhibits strong robustness in scenarios with noisy or limited data.
- Abstract(参考訳): オフライン強化学習(RL)は、アウト・オブ・ディストリビューション(OOD)アクションによって引き起こされる外挿誤差に悩まされる。
これを解決するために、オフラインのRLアルゴリズムは一般的にアクション選択に制約を課すが、これは体系的に密度、サポート、サンプルの制約に分類できる。
密度とサンプルの制約は多くのシナリオにおいて過度に保守的である傾向にあるのに対して、サポート制約は少なくとも制約はあるものの、行動ポリシーを正確にモデル化する上での課題に直面している。
これらの制約を克服するため、ベルマン目標における行動選択をデータセットアクションの近傍の結合に制限する新しい地区制約を提案する。
理論的には、制約は外挿誤差や分布シフトを特定の条件下で制限するだけでなく、動作ポリシーモデリングを必要とせずにサポート制約を近似する。
さらに、大きな柔軟性を保持し、各データポイントに近傍半径を適応させることで、点保守を可能にする。
実際に,適応基準としてデータ品質を採用し,適応的近傍制約を設計する。
効率的な二段階最適化フレームワークを構築し,この制約を満たす目標行動を用いてQ学習を行うための,シンプルで効果的なアルゴリズムであるAdaptive Neighborhood-Constrained Q Learning(ANQ)を開発した。
実証的には、ANQは標準的なオフラインRLベンチマークで最先端のパフォーマンスを達成し、ノイズや制限データのあるシナリオで強い堅牢性を示す。
関連論文リスト
- ACL-QL: Adaptive Conservative Level in Q-Learning for Offline Reinforcement Learning [46.67828766038463]
本稿では,Q-Learning(ACL-QL)における適応保守レベル(Adaptive Conservative Level in Q-Learning, ACL-QL)を提案する。
ACL-QLは、各状態-作用ペアに対する保守的なレベルの適応的な制御を可能にする。
理論解析により,2つの学習可能な適応重み関数を用いて各遷移の保守レベルを制御する新しいアルゴリズム ACL-QL を提案する。
論文 参考訳(メタデータ) (2024-12-22T04:18:02Z) - Diffusion Predictive Control with Constraints [51.91057765703533]
拡散予測制御(Diffusion predictive control with constraints,DPCC)は、拡散に基づく制御のアルゴリズムである。
DPCCは,新しいテスト時間制約を満たすために,既存の手法よりも優れた性能を示すロボットマニピュレータのシミュレーションを通して示す。
論文 参考訳(メタデータ) (2024-12-12T15:10:22Z) - Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。
報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。
我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:28:23Z) - Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage [100.8180383245813]
オフライン強化学習(RL)のための値ベースアルゴリズムを提案する。
ソフトマージン条件下でのバニラQ関数の類似した結果を示す。
我々のアルゴリズムの損失関数は、推定問題を非線形凸最適化問題とラグランジフィケーションとしてキャストすることによって生じる。
論文 参考訳(メタデータ) (2023-02-05T14:22:41Z) - Deep Constrained Q-learning [15.582910645906145]
多くの実世界の応用において、強化学習エージェントは特定の規則に従うか制約を満たすことなく、複数の目的を最適化する必要がある。
制約付きMDPの最適Q関数とそれに対応する安全ポリシーを学習するために,Q更新時の行動空間を直接制限する新しい非政治的強化学習フレームワークであるConstrained Q-learningを提案する。
論文 参考訳(メタデータ) (2020-03-20T17:26:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。