論文の概要: Information-Directed Offline-to-Online Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.29405v1
- Date: Thu, 28 May 2026 05:58:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.829158
- Title: Information-Directed Offline-to-Online Reinforcement Learning
- Title(参考訳): 情報指向のオフライン強化学習
- Authors: Keru Chen,
- Abstract要約: オフラインデータセットの意思決定は、通常、特定のオフラインデータからポリシーやスコアモデルをウォームスタートし、オンラインインタラクションの制限によって洗練する。
この不確実性を条件付き相互情報$I(;_1:TmidmathcalD_N)$で定式化する。
この見解は自然に情報指向サンプリング(IDS)につながる。これは$ge 0$でパラメータ付けされたファミリーであり、情報ゲインに対して即時後悔と引き換えに行動を選択する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decision-making from offline datasets typically warm-starts a policy or score model from fixed offline data and then refines it with limited online interaction. Offline data reduces uncertainty, but it does not remove the need for exploration; it changes what remains to be explored. We formalise this residual uncertainty by the conditional mutual information $I(χ;τ_{1:T}\mid\mathcal{D}_N)$ between a learning target $χ$ and the online trajectories after conditioning on the offline dataset. This view leads naturally to information-directed sampling (IDS), a family parameterised by $η\ge 0$ that selects actions by trading off instantaneous regret against information gain. We prove a generic offline-to-online Bayesian regret bound for IDS through a ratio certificate: any information-ratio bound satisfied by a reference Thompson-sampling policy over the same randomised policy class is inherited by IDS. In a known-dynamics Bayesian linear-reward model, the conditional mutual information has a log-determinant form, and vanilla IDS ($η=0$) satisfies $\widetilde O\!\left(Hd\min\left\{\sqrt T,\,T\sqrt{C^\dagger_{β,\mathrm{IDS}_0}(N,T)/N}\right\}\right),$ where the coverage coefficient is tied to the visitation distribution induced by vanilla IDS itself. We also identify a warm-start regime with a dominated but informative probe in which vanilla IDS selects the probe while Thompson sampling never does, giving a constant-factor Bayesian regret separation. Controlled bandit experiments and D4RL offline-to-online RL experiments validate this mechanism: IDS is most beneficial when offline data is informative but leaves biased or low-probability residual uncertainty that targeted online actions can resolve, a regime shared by offline RL, offline black-box optimization, and Bayesian optimization.
- Abstract(参考訳): オフラインデータセットの意思決定は、通常、特定のオフラインデータからポリシーやスコアモデルをウォームスタートし、オンラインインタラクションの制限によって洗練する。
オフラインデータは不確実性を低減しますが、探索の必要性を排除しません。
我々は、この不確実性を条件付き相互情報$I(\τ_{1:T}\mid\mathcal{D}_N)$で定式化する。
この見解は自然に情報指向サンプリング(IDS)につながる。これは$η\ge 0$でパラメータ付けされたファミリーで、情報取得に対して即時後悔と引き換えに行動を選択する。
同一のランダム化ポリシークラス上の参照トンプソンサンプリングポリシーで満たされる任意の情報比は、IDSによって継承される。
既知の力学ベイズ線形回帰モデルでは、条件付き相互情報は対数決定型を持ち、バニラIDS(η=0$)は$\widetilde O\!
\left(Hd\min\left\{\sqrt T,\,T\sqrt{C^\dagger_{β,\mathrm{IDS}_0}(N,T)/N}\right\right)$ ここで、カバー係数はバニラIDS自体によって誘導される訪問分布と結び付けられる。
我々はまた、バニラIDSがプローブを選択し、トンプソンサンプリングが決して行わないような、支配的だが情報的なプローブを持つウォームスタート体制を同定し、定常的なベイズ的後悔の分離を与える。
制御された帯域幅実験とD4RLオフライン-オンラインRL実験は、このメカニズムを検証している: IDSは、オフラインデータが通知されるときに最も有益であるが、ターゲットとするオンラインアクションが解決できるバイアスまたは低確率の残留不確実性、オフラインRLで共有される状態、オフラインブラックボックス最適化、ベイズ最適化である。
関連論文リスト
- Sample-Mean Anchored Thompson Sampling for Offline-to-Online Learning with Distribution Shift [24.048629084196904]
オフラインからオンラインへの学習における中心的な課題は、オフラインデータとオンラインデータの分散シフトである。
本稿では, 腕指数をオンライン後部サンプル, ハイブリッド後部サンプル, オンライン平均の中央値として定義する, 新たな中央値に基づくアンカールールを提案する。
我々は,提案アルゴリズムがオフラインデータを安全に活用してオンライン学習を加速することを示す理論的保証を確立する。
論文 参考訳(メタデータ) (2026-05-11T09:50:58Z) - Geometry-Aware Offline-to-Online Learning in Linear Contextual Bandits [5.0861449841476984]
バイアス付きオフライン回帰データを用いた線形文脈帯域におけるオフライン-オンライン学習について検討した。
EmphEllipsoidal-MINUCBを提案する。これは標準オンラインブランチとオフラインインフォームドプールブランチを組み合わせたものだ。
有限個のリフレッシュ時間でデータ駆動証明書を学習し,楕円体-MINUCB に対して高い確率でリフレッシュする手法を示す。
論文 参考訳(メタデータ) (2026-04-27T03:53:30Z) - Efficient Online Reinforcement Learning Fine-Tuning Need Not Retain Offline Data [64.74333980417235]
オフラインRLを微調整するために適切に設計されたオンラインRLアプローチを使用する限り、オフラインデータの保持は不要であることを示す。
Warm-start RL(WSRL)はオフラインデータを保持することなく微調整が可能であり,既存のアルゴリズムよりも高速に学習でき,高い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-12-10T18:57:12Z) - Order-Optimal Instance-Dependent Bounds for Offline Reinforcement Learning with Preference Feedback [56.6950165117658]
我々は、暗黙の報酬が未知パラメータの線形関数である、好みフィードバックによるオフライン強化学習について検討する。
そこで我々は,UnderlineLocally Underline Underline Weights あるいは sc RL-LOW を用いたアルゴリズムを提案する。
我々は,sc RL-LOWの次数次最適性を示すため,単純な後悔マッチングの指数において,下限と上限が順序的に一致することが観察された。
論文 参考訳(メタデータ) (2024-06-18T02:03:12Z) - Leveraging Offline Data in Linear Latent Contextual Bandits [27.272915631913175]
我々は、数え切れないほど多くの潜伏状態を処理できるエンドツーエンドの潜伏包帯アルゴリズムを設計する。
このオフラインアルゴリズムの出力を利用してオンライン学習を高速化する2つのオンラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-27T16:23:34Z) - Reward-agnostic Fine-tuning: Provable Statistical Benefits of Hybrid
Reinforcement Learning [66.43003402281659]
オンラインデータ収集を効率的に活用してオフラインデータセットを強化し補完する方法に、中心的な疑問が浮かび上がっている。
我々は、純粋なオフラインRLと純粋なオンラインRLという、両方の世界のベストを打ち負かす3段階のハイブリッドRLアルゴリズムを設計する。
提案アルゴリズムは,データ収集時に報酬情報を必要としない。
論文 参考訳(メタデータ) (2023-05-17T15:17:23Z) - The Least Restriction for Offline Reinforcement Learning [0.0]
我々は、創造的なオフライン強化学習フレームワーク、Least Restriction (LR)を提案する。
LRは、アクションを選択することを確率分布からサンプルを取るとみなす。
ランダムとサブ最適のデモを含む、さまざまなオフラインデータセットから堅牢に学習することができる。
論文 参考訳(メタデータ) (2021-07-05T01:50:40Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。