論文の概要: Learning Upper Lower Value Envelopes to Shape Online RL: A Principled Approach
- arxiv url: http://arxiv.org/abs/2510.19528v1
- Date: Wed, 22 Oct 2025 12:32:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.761066
- Title: Learning Upper Lower Value Envelopes to Shape Online RL: A Principled Approach
- Title(参考訳): オンラインRLを形作るための下層価値の包括的学習--原則的アプローチ
- Authors: Sebastian Reboul, Hélène Halconruy, Randal Douc,
- Abstract要約: 本研究は、この文脈における価値エンベロープの学習と適用方法に焦点を当てる。
第一段階はオフラインデータを用いて値関数の上下境界を導出し、第二段階は学習した境界をオンラインアルゴリズムに組み込む。
- 参考スコア(独自算出の注目度): 2.9690567171043725
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the fundamental problem of leveraging offline data to accelerate online reinforcement learning - a direction with strong potential but limited theoretical grounding. Our study centers on how to learn and apply value envelopes within this context. To this end, we introduce a principled two-stage framework: the first stage uses offline data to derive upper and lower bounds on value functions, while the second incorporates these learned bounds into online algorithms. Our method extends prior work by decoupling the upper and lower bounds, enabling more flexible and tighter approximations. In contrast to approaches that rely on fixed shaping functions, our envelopes are data-driven and explicitly modeled as random variables, with a filtration argument ensuring independence across phases. The analysis establishes high-probability regret bounds determined by two interpretable quantities, thereby providing a formal bridge between offline pre-training and online fine-tuning. Empirical results on tabular MDPs demonstrate substantial regret reductions compared with both UCBVI and prior methods.
- Abstract(参考訳): オフラインデータを活用してオンライン強化学習を加速する根本的な課題について検討する。
本研究は,この文脈で価値包絡を学習し,適用する方法に焦点を当てる。
第一段階はオフラインデータを用いて値関数の上と下の境界を導出し、第二段階は学習した境界をオンラインアルゴリズムに組み込む。
提案手法は, 上界と下界を分離することにより, より柔軟で厳密な近似を可能にする。
固定整形関数に依存するアプローチとは対照的に、エンベロープはデータ駆動型であり、ランダム変数として明示的にモデル化されている。
この分析は、2つの解釈可能な量によって決定される高い確率的後悔境界を確立し、オフラインの事前学習とオンラインの微調整の間に正式な橋渡しを提供する。
表状MDPに対する経験的結果は, UCBVI法と先行手法の双方と比較して, 著しい後悔の減少を示す。
関連論文リスト
- Fine-tuning Behavioral Cloning Policies with Preference-Based Reinforcement Learning [8.657536710294766]
専門家によるデモンストレーションの報酬のないデータセットから安全な初期ポリシーを学習し、嗜好に基づく人間のフィードバックを使ってオンラインで微調整する2段階のフレームワークを提案する。
本稿では、このオフライン-オンラインアプローチの第一原理分析と、不確実性重み付けされた目的を通じて両信号を統合する統一アルゴリズムBRIDGEを紹介する。
BRIDGE を離散的かつ連続的に制御する MuJoCo 環境において検証し,スタンドアロンの行動クローンとオンラインの嗜好に基づく RL の双方と比較して,後悔度が低いことを示す。
論文 参考訳(メタデータ) (2025-09-30T17:50:19Z) - Unlocking the Potential of Difficulty Prior in RL-based Multimodal Reasoning [69.64809103333839]
先行情報に対する問題の難易度を明示的にモデル化し,多モーダル推論における強化学習に基づく微調整の有効性を検証した。
提案手法は,2段階学習データのみを2K+0.6Kとする多モード数学的推論ベンチマークにおいて有意な性能を示す。
論文 参考訳(メタデータ) (2025-05-19T15:43:10Z) - Continual Multimodal Contrastive Learning [99.53621521696051]
MCL(Multimodal Contrastive Learning)は、異なるモダリティを整列し、関節空間におけるマルチモーダル表現を生成する。
マルチモーダルデータは単一のプロセスで収集されることはめったになく、スクラッチからのトレーニングは計算コストがかかる。
本稿では, 安定性と塑性の2つの原理によりCMCLを定式化する。
理論的には、二辺から部分空間への勾配の更新を計画する、新しい最適化に基づく手法を導出する。
論文 参考訳(メタデータ) (2025-03-19T07:57:08Z) - Adversarial Policy Optimization for Offline Preference-based Reinforcement Learning [8.087699764574788]
オフライン優先型強化学習(PbRL)のための効率的なアルゴリズムを提案する。
APPOは、明示的な信頼セットに頼ることなく、サンプルの複雑性境界を保証する。
我々の知る限り、APPOは統計的効率と実用性の両方を提供する最初のオフラインPbRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-03-07T10:35:01Z) - All Roads Lead to Likelihood: The Value of Reinforcement Learning in Fine-Tuning [49.43901716932925]
基礎モデルファインチューニング(FT)における最強の結果は,比較的複雑な2段階の訓練手順によって達成されることを示す。
具体的には、オンラインフィードバックを提供するために使用する前に、まず、あるデータセット(例えば、人間の好み)に報酬モデル(RM)をトレーニングする。
生成検証ギャップの問題に対して、比較的単純なRMを選好データから学習することは比較的容易である、という説明を最も支持している。
論文 参考訳(メタデータ) (2025-03-03T00:15:19Z) - Offline Reinforcement Learning: Fundamental Barriers for Value Function
Approximation [74.3002974673248]
本稿では,ログデータから意思決定方針を学習することを目的としたオフライン強化学習問題を考察する。
オンラインデータ収集は安全クリティカルなドメインに適しているため、オフラインのRLは現実的にますます重要になっている。
以上の結果から, サンプル効率の良いオフライン強化学習には, 制限的カバレッジ条件か, あるいは複雑性学習を超える表現条件が必要であることが示唆された。
論文 参考訳(メタデータ) (2021-11-21T23:22:37Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Best-Case Lower Bounds in Online Learning [9.01310450044549]
オンライン学習における研究の多くは、後悔に対する下線上界の研究に焦点を当てている。
本研究では,オンライン凸最適化における最良ケース下界の研究を開始する。
我々はFTRLの線形化バージョンが負の線形後悔を達成できることを示した。
論文 参考訳(メタデータ) (2021-06-23T23:24:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。