論文の概要: Residuals-based Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2604.01378v1
- Date: Wed, 01 Apr 2026 20:38:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:09.968371
- Title: Residuals-based Offline Reinforcement Learning
- Title(参考訳): 残余に基づくオフライン強化学習
- Authors: Qing Zhu, Xian Yu,
- Abstract要約: オフライン強化学習 (RL) は, 実環境と対話することなく, 以前に収集したデータから学習ポリシーに注目が集まっている。
一般状態と行動空間のための残差に基づくオフラインRLフレームワークを提案する。
- 参考スコア(独自算出の注目度): 16.107192067504418
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning (RL) has received increasing attention for learning policies from previously collected data without interaction with the real environment, which is particularly important in high-stakes applications. While a growing body of work has developed offline RL algorithms, these methods often rely on restrictive assumptions about data coverage and suffer from distribution shift. In this paper, we propose a residuals-based offline RL framework for general state and action spaces. Specifically, we define a residuals-based Bellman optimality operator that explicitly incorporates estimation error in learning transition dynamics into policy optimization by leveraging empirical residuals. We show that this Bellman operator is a contraction mapping and identify conditions under which its fixed point is asymptotically optimal and possesses finite-sample guarantees. We further develop a residuals-based offline deep Q-learning (DQN) algorithm. Using a stochastic CartPole environment, we demonstrate the effectiveness of our residuals-based offline DQN algorithm.
- Abstract(参考訳): オフライン強化学習 (RL) は, 実環境との相互作用を伴わない事前収集データから学習ポリシーに注目が集まっている。
オフラインのRLアルゴリズムの開発が増えている一方で、これらの手法はデータカバレッジに関する制限的な仮定に頼り、分散シフトに悩まされることが多い。
本稿では,一般状態と行動空間のための残差に基づくオフラインRLフレームワークを提案する。
具体的には、経験的残差を利用して、学習遷移力学における推定誤差をポリシー最適化に明示的に組み込んだ残差に基づくベルマン最適演算子を定義する。
このベルマン作用素は縮約写像であり、その固定点が漸近的に最適であり、有限サンプル保証を持つ条件を特定する。
さらに,残差に基づくオフライン深度Q-learning(DQN)アルゴリズムを開発した。
確率的CartPole環境を用いて,残差に基づくオフラインDQNアルゴリズムの有効性を示す。
関連論文リスト
- Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Offline Reinforcement Learning with Additional Covering Distributions [0.0]
我々は,関数近似を用いて,ログ化されたデータセット,すなわちオフラインRLから最適ポリシーを学習する。
一般のMDPに対するサンプル効率のよいオフラインRLは、部分的カバレッジデータセットと弱い実現可能な関数クラスだけで実現可能であることを示す。
論文 参考訳(メタデータ) (2023-05-22T03:31:03Z) - Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage [100.8180383245813]
オフライン強化学習(RL)のための値ベースアルゴリズムを提案する。
ソフトマージン条件下でのバニラQ関数の類似した結果を示す。
我々のアルゴリズムの損失関数は、推定問題を非線形凸最適化問題とラグランジフィケーションとしてキャストすることによって生じる。
論文 参考訳(メタデータ) (2023-02-05T14:22:41Z) - Offline Reinforcement Learning via Linear-Programming with Error-Bound Induced Constraints [26.008426384903764]
オフライン強化学習(RL)は、事前に収集されたデータセットを使用して、マルコフ決定プロセス(MDP)の最適ポリシーを見つけることを目的としている。
本研究では,オフラインRLにおけるマルコフ決定過程の線形プログラミング (LP) の再検討を行う。
論文 参考訳(メタデータ) (2022-12-28T15:28:12Z) - Near-optimal Offline Reinforcement Learning with Linear Representation:
Leveraging Variance Information with Pessimism [65.46524775457928]
オフライン強化学習は、オフライン/歴史的データを活用して、シーケンシャルな意思決定戦略を最適化しようとしている。
線形モデル表現を用いたオフライン強化学習の統計的限界について検討する。
論文 参考訳(メタデータ) (2022-03-11T09:00:12Z) - Pessimistic Bootstrapping for Uncertainty-Driven Offline Reinforcement
Learning [125.8224674893018]
オフライン強化学習(RL)は、環境を探索することなく、以前に収集したデータセットからポリシーを学ぶことを目的としている。
オフポリシーアルゴリズムをオフラインRLに適用することは、通常、オフ・オブ・ディストリビューション(OOD)アクションによって引き起こされる外挿エラーによって失敗する。
本稿では,PBRL(Pepsimistic Bootstrapping for offline RL)を提案する。
論文 参考訳(メタデータ) (2022-02-23T15:27:16Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Uncertainty-Based Offline Reinforcement Learning with Diversified
Q-Ensemble [16.92791301062903]
本稿では,Q値予測の信頼性を考慮した不確実性に基づくオフラインRL手法を提案する。
意外なことに、カットされたQ-ラーニングとともにQ-networksの数を単純に増やすことで、既存のオフラインRLメソッドを様々なタスクで大幅に上回ります。
論文 参考訳(メタデータ) (2021-10-04T16:40:13Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。