論文の概要: Provably Efficient Offline-to-Online Value Adaptation with General Function Approximation
- arxiv url: http://arxiv.org/abs/2604.13966v1
- Date: Wed, 15 Apr 2026 15:17:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.60193
- Title: Provably Efficient Offline-to-Online Value Adaptation with General Function Approximation
- Title(参考訳): 一般関数近似を用いた高効率オフライン-オンライン値適応
- Authors: Shangzhe Li, Weitong Zhang,
- Abstract要約: 一般関数近似に基づくオフライン-オンライン強化学習における値適応について検討する。
問題依存型サンプル複雑性を持つ適応アルゴリズムであるO2O-LSVIを提案する。
- 参考スコア(独自算出の注目度): 20.941097002434944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study value adaptation in offline-to-online reinforcement learning under general function approximation. Starting from an imperfect offline pretrained $Q$-function, the learner aims to adapt it to the target environment using only a limited amount of online interaction. We first characterize the difficulty of this setting by establishing a minimax lower bound, showing that even when the pretrained $Q$-function is close to optimal $Q^\star$, online adaptation can be no more efficient than pure online RL on certain hard instances. On the positive side, under a novel structural condition on the offline-pretrained value functions, we propose O2O-LSVI, an adaptation algorithm with problem-dependent sample complexity that provably improves over pure online RL. Finally, we complement our theory with neural-network experiments that demonstrate the practical effectiveness of the proposed method.
- Abstract(参考訳): 一般関数近似に基づくオフライン-オンライン強化学習における値適応について検討する。
未完成のオフライン事前訓練のQ$-functionから始めて、学習者は限定的なオンラインインタラクションのみを使用してターゲット環境に適応することを目指している。
まず, 事前学習した$Q$-関数が最適な$Q^\star$に近くても, オンライン適応は, 特定のハードインスタンス上で純粋オンラインRLよりも効率が良くないことを示す。
正の面では、オフライン事前制約値関数の新たな構造条件の下で、純粋オンラインRLよりも確実に改善される問題依存サンプル複雑性を持つ適応アルゴリズムであるO2O-LSVIを提案する。
最後に,提案手法の有効性を実証するニューラルネットワーク実験により,本理論を補完する。
関連論文リスト
- Sample Efficient Active Algorithms for Offline Reinforcement Learning [11.11852070175351]
オフライン強化学習(英語版) (RL) は静的データからポリシー学習を可能にするが、状態-作用空間や分散シフトの問題に悩まされることが多い。
本稿では,ガウス過程(GP)の不確実性モデリングのレンズを用いて,ActiveRLの厳密な試料複雑度解析法を開発した。
その結果,ActiveRLは最適に近い情報効率,すなわちガイド付き不確実性低減を実現し,最小限のオンラインデータで値関数収束を加速させることがわかった。
論文 参考訳(メタデータ) (2026-02-01T14:38:07Z) - Zero-Shot Transferable Solution Method for Parametric Optimal Control Problems [2.365391421959969]
本稿では,関数エンコーダ (FE) ポリシを用いた最適制御問題の伝達可能な解を提案する。
提案手法は,制御ポリシ空間にまたがる再利用可能な神経基盤関数の集合を学習する。
様々な力学,次元,コスト構造に関する数値実験により,本手法が最小限のオーバーヘッドで最適に近い性能を実現することを示す。
論文 参考訳(メタデータ) (2025-09-22T20:38:05Z) - Preference Elicitation for Offline Reinforcement Learning [59.136381500967744]
オフラインの嗜好に基づく強化学習アルゴリズムであるSim-OPRLを提案する。
本アルゴリズムは,配当外データに対する悲観的アプローチと,最適方針に関する情報的嗜好を得るための楽観的アプローチを用いる。
論文 参考訳(メタデータ) (2024-06-26T15:59:13Z) - Efficient Methods for Non-stationary Online Learning [63.268670895111654]
動的後悔と適応的後悔を最適化する効率的な方法を提案する。
提案アルゴリズムでは,各ラウンドで1つの勾配クエリと1つの関数評価しか必要としない。
また、さらに強力な測度、すなわち「内部的動的後悔」を研究し、ラウンド当たりの射影数を$O(log2 T)$から$$$$に減らした。
論文 参考訳(メタデータ) (2023-09-16T07:30:12Z) - Semi-Offline Reinforcement Learning for Optimized Text Generation [35.1606951874979]
強化学習(RL)では、オンラインとオフラインという、環境と対話するための2つの主要な設定がある。
オフライン手法は探索能力を犠牲にして効率よく報奨信号を得る。
オフラインからオンラインへスムーズに移行し、探索能力とトレーニングコストのバランスをとる新しいパラダイムである半オフラインRLを提案し、異なるRL設定を比較する理論的基盤を提供する。
論文 参考訳(メタデータ) (2023-06-16T09:24:29Z) - On Efficient Online Imitation Learning via Classification [17.416831207557603]
分類に基づくオンライン模倣学習($textbfCOIL$)と、オラクル効率の良い後悔最小化アルゴリズムを設計するための基本的な可能性について検討する。
私たちの研究は、分類に基づくオンライン模倣学習を、重要なILセットアップとして、しっかりとした基礎に置きます。
論文 参考訳(メタデータ) (2022-09-26T17:34:36Z) - Adaptivity and Non-stationarity: Problem-dependent Dynamic Regret for Online Convex Optimization [70.4342220499858]
本稿では,スムーズさを生かし,問題依存量による動的後悔のT$への依存を補う新しいオンラインアルゴリズムを提案する。
この結果が本質的な難易度に適応しているのは, 既往の結果よりも厳密であり, 最悪の場合, 同一レートの保護が可能であるからである。
論文 参考訳(メタデータ) (2021-12-29T02:42:59Z) - Offline Neural Contextual Bandits: Pessimism, Optimization and
Generalization [42.865641215856925]
本稿では,ニューラルネットワーク関数近似を用いた効率の良いオフラインコンテキスト帯域幅を提案する。
本手法は,従来のOPL法よりも分布シフトの軽度な条件下で,未知の文脈を一般化することを示す。
また, 実世界のOPL問題において, 提案手法の実証的有効性を示す。
論文 参考訳(メタデータ) (2021-11-27T03:57:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。