論文の概要: Offline-to-Online Learning in Linear Bandits
- arxiv url: http://arxiv.org/abs/2606.04305v1
- Date: Wed, 03 Jun 2026 00:18:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.438071
- Title: Offline-to-Online Learning in Linear Bandits
- Title(参考訳): 線形帯域におけるオフライン学習
- Authors: Kushagra Chandak, Toshinori Kitamura, Xiaoqi Tan,
- Abstract要約: 線形バンディット設定にオフラインデータセットを追加してオンライン学習を学習する。
我々は、このトレードオフのバランスをとる線形帯域幅アルゴリズムを提案し、初期ラウンドでオフラインデータに依存し、地平線が大きくなるにつれて探索を好んでいる。
- 参考スコア(独自算出の注目度): 2.372134377778215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study online learning with an additional offline dataset in the stochastic linear bandit setting. Although this problem arises frequently in practice, the offline-to-online tradeoff remains poorly understood in structured environments. We propose a linear bandit algorithm that balances this tradeoff: it relies on offline data during early rounds, and increasingly favors exploration as the horizon grows. We establish regret bounds showing that our method is simultaneously competitive with both purely online and purely offline solutions. In particular, it achieves sublinear regret relative to the optimal action in the number of online interactions, while its regret relative to an offline reference decreases as the number of offline samples grows. Empirical results further demonstrate its effectiveness across various problem parameters.
- Abstract(参考訳): 我々は、確率線形帯域設定において、オフラインデータセットを追加してオンライン学習を研究する。
この問題は実際に頻繁に発生するが、オフライン-オンライン間のトレードオフは構造化環境では理解されていない。
我々は、このトレードオフのバランスをとる線形帯域幅アルゴリズムを提案し、初期ラウンドでオフラインデータに依存し、地平線が大きくなるにつれて探索を好んでいる。
我々は,本手法がオンラインとオフラインの両方のソリューションと同時に競合していることを示す,後悔すべき境界を定めている。
特に、オフライン参照に対する後悔はオフラインサンプルの数が増加するにつれて減少する一方、オンラインインタラクションの数における最適なアクションに対するサブ線形後悔を実現する。
実験結果は、様々な問題パラメータにわたってその有効性を示す。
関連論文リスト
- Offline-Online Reinforcement Learning for Linear Mixture MDPs [0.5538445885586951]
環境変化下における線形混合マルコフ決定過程(MDP)のオフライン・オンライン強化学習について検討した。
オフラインフェーズでは、データは未知の行動ポリシーによって収集され、ミスマッチした環境から来る可能性がある。
オフラインデータを適応的に活用するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-04-13T19:34:30Z) - Offline Clustering of Linear Bandits: The Power of Clusters under Limited Data [60.91600085523719]
我々は、オフラインデータセットを用いてクラスタ特性を学習し、意思決定を改善する方法を研究する、帯域幅(Off-ClusBand)問題のオフラインクラスタリングについて検討する。
提案するアルゴリズムは2つある: Off-C2LUB は、限られたオフラインユーザデータの下で既存の手法を解析的かつ実験的に上回る性能を示し、Off-CLUB は、データがスパースであるときにバイアスが発生するが、データが十分であれば、その下限にほぼ一致する。
論文 参考訳(メタデータ) (2025-05-25T08:43:40Z) - Active Advantage-Aligned Online Reinforcement Learning with Offline Data [56.98480620108727]
A3RLは,アクティブアドバンテージアライメント・アライメント・サンプリング・ストラテジーを取り入れた新しい信頼度を取り入れた手法である。
本手法はオフラインデータを利用する競合するオンラインRL技術より優れていることを示す。
論文 参考訳(メタデータ) (2025-02-11T20:31:59Z) - Optimistic Critic Reconstruction and Constrained Fine-Tuning for General Offline-to-Online RL [36.65926744075032]
オフラインからオンラインへの強化学習(O2O)は、オンラインインタラクションの制限によって、パフォーマンスが急速に向上する。
近年の研究では、特定のオフラインRL手法の微調整戦略を設計することが多く、任意のオフライン手法から一般のO2O学習を行うことはできない。
この2つのミスマッチを同時に処理し,オフラインメソッドからオンラインメソッドへの一般的なO2O学習を実現することを提案する。
論文 参考訳(メタデータ) (2024-12-25T09:52:22Z) - ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z) - Adaptive Policy Learning for Offline-to-Online Reinforcement Learning [27.80266207283246]
我々は、エージェントがオフラインデータセットから最初に学習され、オンラインにトレーニングされたオフライン-オンライン設定について検討する。
オフラインおよびオンラインデータを効果的に活用するためのAdaptive Policy Learningというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-14T08:13:21Z) - Adaptive Behavior Cloning Regularization for Stable Offline-to-Online
Reinforcement Learning [80.25648265273155]
オフライン強化学習は、固定データセットから学習することで、環境と対話することなくエージェントの動作を学ぶことができる。
オンラインの微調整中、オフラインからオンラインデータへの突然の分散シフトにより、事前訓練されたエージェントのパフォーマンスが急速に低下する可能性がある。
エージェントの性能と訓練安定性に基づいて,オンラインファインチューニングにおける行動クローンの損失を適応的に評価することを提案する。
実験の結果,提案手法はD4RLベンチマークにおいて,最先端のオフライン-オンライン強化学習性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-10-25T09:08:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。