論文の概要: Sample Efficient Active Algorithms for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.01260v1
- Date: Sun, 01 Feb 2026 14:38:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.682203
- Title: Sample Efficient Active Algorithms for Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習のためのサンプル能動アルゴリズム
- Authors: Soumyadeep Roy, Shashwat Kushwaha, Ambedkar Dukkipati,
- Abstract要約: オフライン強化学習(英語版) (RL) は静的データからポリシー学習を可能にするが、状態-作用空間や分散シフトの問題に悩まされることが多い。
本稿では,ガウス過程(GP)の不確実性モデリングのレンズを用いて,ActiveRLの厳密な試料複雑度解析法を開発した。
その結果,ActiveRLは最適に近い情報効率,すなわちガイド付き不確実性低減を実現し,最小限のオンラインデータで値関数収束を加速させることがわかった。
- 参考スコア(独自算出の注目度): 11.11852070175351
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning (RL) enables policy learning from static data but often suffers from poor coverage of the state-action space and distributional shift problems. This problem can be addressed by allowing limited online interactions to selectively refine uncertain regions of the learned value function, which is referred to as Active Reinforcement Learning (ActiveRL). While there has been good empirical success, no theoretical analysis is available in the literature. We fill this gap by developing a rigorous sample-complexity analysis of ActiveRL through the lens of Gaussian Process (GP) uncertainty modeling. In this respect, we propose an algorithm and using GP concentration inequalities and information-gain bounds, we derive high-probability guarantees showing that an $ε$-optimal policy can be learned with ${\mathcal{O}}(1/ε^2)$ active transitions, improving upon the $Ω(1/ε^2(1-γ)^4)$ rate of purely offline methods. Our results reveal that ActiveRL achieves near-optimal information efficiency, that is, guided uncertainty reduction leads to accelerated value-function convergence with minimal online data. Our analysis builds on GP concentration inequalities and information-gain bounds, bridging Bayesian nonparametric regression and reinforcement learning theories. We conduct several experiments to validate the algorithm and theoretical findings.
- Abstract(参考訳): オフライン強化学習(RL)は、静的データからポリシー学習を可能にするが、状態-作用空間や分散シフト問題への悪影響に悩まされることが多い。
この問題は、限定的なオンラインインタラクションによって学習された値関数の不確実な領域を選択的に洗練させることによって解決できる。
実験的な成功はあったが、理論的な分析は文献にはない。
ガウス過程(GP)の不確実性モデリングのレンズを用いて,ActiveRLの厳密なサンプル複雑度解析を開発することにより,このギャップを埋める。
本稿では,GP濃度の不等式と情報ゲインバウンダリを用いたアルゴリズムを提案し,$ε$-optimal Policyを${\mathcal{O}}(1/ε^2)$のアクティブ遷移で学習できることを示し,$Ω(1/ε^2(1-γ)^4)$の純粋オフラインメソッドのレートを改善する。
その結果,ActiveRLは最適に近い情報効率,すなわちガイド付き不確実性低減を実現し,最小限のオンラインデータで値関数収束を加速させることがわかった。
解析は,GP濃度の不等式と情報ゲイン境界,ベイズ非パラメトリック回帰理論と強化学習理論に基づく。
アルゴリズムと理論的発見を検証するために,いくつかの実験を行った。
関連論文リスト
- Sublinear Regret for a Class of Continuous-Time Linear-Quadratic Reinforcement Learning Problems [10.404992912881601]
拡散に対する連続時間線形四元数(LQ)制御のクラスに対する強化学習(RL)について検討した。
モデルパラメータの知識にも,その推定にも依存しないモデルフリーアプローチを適用し,RLアルゴリズムを設計して,適切なポリシパラメータを直接学習する。
論文 参考訳(メタデータ) (2024-07-24T12:26:21Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Online non-parametric likelihood-ratio estimation by Pearson-divergence
functional minimization [55.98760097296213]
iid 観測のペア $(x_t sim p, x'_t sim q)$ が時間の経過とともに観測されるような,オンラインな非パラメトリック LRE (OLRE) のための新しいフレームワークを提案する。
本稿では,OLRE法の性能に関する理論的保証と,合成実験における実証的検証について述べる。
論文 参考訳(メタデータ) (2023-11-03T13:20:11Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z) - Provably Correct Optimization and Exploration with Non-linear Policies [65.60853260886516]
ENIACは、批評家の非線形関数近似を可能にするアクター批判手法である。
特定の仮定の下では、学習者は$o(poly(d))$の探索ラウンドで最適に近い方針を見つける。
我々は,この適応を経験的に評価し,線形手法に触発された前処理よりも優れることを示す。
論文 参考訳(メタデータ) (2021-03-22T03:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。