論文の概要: Geometry-Aware Offline-to-Online Learning in Linear Contextual Bandits
- arxiv url: http://arxiv.org/abs/2604.24016v1
- Date: Mon, 27 Apr 2026 03:53:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.729079
- Title: Geometry-Aware Offline-to-Online Learning in Linear Contextual Bandits
- Title(参考訳): 線形コンテキスト帯域におけるオフライン学習の幾何学的認識
- Authors: Zean Han, Ruihan Lin, Zezhen Ding, Jiheng Zhang,
- Abstract要約: バイアス付きオフライン回帰データを用いた線形文脈帯域におけるオフライン-オンライン学習について検討した。
EmphEllipsoidal-MINUCBを提案する。これは標準オンラインブランチとオフラインインフォームドプールブランチを組み合わせたものだ。
有限個のリフレッシュ時間でデータ駆動証明書を学習し,楕円体-MINUCB に対して高い確率でリフレッシュする手法を示す。
- 参考スコア(独自算出の注目度): 5.0861449841476984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study offline-to-online learning in linear contextual bandits with biased offline regression data: the offline parameter need not match the online one, so history should not be treated as a single warm start. We model directional transfer with a shift certificate $(M_{\mathrm{shift}},ρ)$ and offline ridge estimation, yielding a geometry-aware confidence region for the online parameter rather than an isotropic radius. We propose \emph{Ellipsoidal-MINUCB}, which combines a standard online branch with an offline-informed pooled branch and uses offline information only when it tightens uncertainty. With high probability, regret is bounded by the minimum of a standard SupLinUCB-style fallback and a pooled term that separates statistical width from a certificate-weighted shift penalty. Under a simple alignment condition, the pooled term further simplifies to a rate governed by an effective dimension induced by the offline geometry. We also show that a purely Euclidean (scalar) shift bound, by itself, does not determine which feature directions are transferable. Beyond this fixed certificate, we show how to learn a data-driven certificate from data at finitely many refresh times and establish a high-probability regret bound for Ellipsoidal-MINUCB with epoch-wise learned certificates. Experiments match the main prediction: gains are strongest at intermediate horizons when offline coverage and transferability align, while the method otherwise tracks the safe online baseline.
- Abstract(参考訳): オフラインパラメータはオンラインのものと一致しないので、履歴を1つの温かいスタートとして扱うべきではない。
我々は、シフト証明書$(M_{\mathrm{shift}},ρ)$とオフラインリッジ推定を用いて方向移動をモデル化し、等方半径ではなくオンラインパラメータの幾何認識信頼領域を生成する。
本稿では,標準オンラインブランチとオフラインのインフォームドプールブランチを組み合わせ,不確実性を断ち切る場合にのみオフライン情報を利用する「emph{Ellipsoidal-MINUCB}」を提案する。
高い確率で、後悔は標準のSupLinUCBスタイルのフォールバックと、統計幅と証明書の重み付けされたシフトペナルティを分離するプール項の最小値によって制限される。
単純なアライメント条件の下では、プール項はオフライン幾何によって誘導される有効次元によって支配される速度にさらに単純化される。
また、純粋にユークリッド(スカラー)シフト境界は、それ自体でどの特徴方向が転送可能であるかを決定できないことも示している。
この固定証明書の他に、有限回数のリフレッシュタイムでデータ駆動証明書を学習し、エポックな学習証明書を持つ楕円体-MINUCBに対して、高い確率の後悔関係を確立する方法を示す。
オフラインのカバレッジと転送可能性の整合性において、ゲインは中間地平線で最強であり、他の方法では安全なオンラインベースラインを追跡する。
関連論文リスト
- Offline-Online Reinforcement Learning for Linear Mixture MDPs [0.5538445885586951]
環境変化下における線形混合マルコフ決定過程(MDP)のオフライン・オンライン強化学習について検討した。
オフラインフェーズでは、データは未知の行動ポリシーによって収集され、ミスマッチした環境から来る可能性がある。
オフラインデータを適応的に活用するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-04-13T19:34:30Z) - Hybrid Combinatorial Multi-armed Bandits with Probabilistically Triggered Arms [10.146314852311638]
我々は,オフラインデータとオンラインインタラクションを原則的に統合する新しいフレームワークであるCMAB-Tを提案する。
提案するハイブリッドCUCBアルゴリズムは,オフラインデータを利用して探索をガイドし,収束を加速する。
我々はアルゴリズムの後悔を理論的に保証し、ハイブリッドCUCBが純粋にオンラインアプローチを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2025-12-26T08:42:12Z) - Online Learning and Unlearning [56.770023668379615]
オンライングラデーション降下(OGD)に基づくオンライン学習者アンラーナー(OLU)アルゴリズムを2つ提示する。
第一の受動的OLUは、OGDの収縮特性を利用し、未学習時にノイズを注入し、追加の計算を行わない。
2つめのアクティブなOLUは、オフラインの未学習アルゴリズムを使用して、削除されたデータを除くソリューションにモデルをシフトする。
論文 参考訳(メタデータ) (2025-05-13T13:33:36Z) - Efficient Online Learning with Offline Datasets for Infinite Horizon
MDPs: A Bayesian Approach [25.77911741149966]
学習エージェントが専門家が使用する行動ポリシーをモデル化すれば,累積的後悔を最小限に抑えることができることを示す。
次に,iPSRL アルゴリズムを効率的に近似する Informed RLSVI アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-17T19:01:08Z) - Online Label Shift: Optimal Dynamic Regret meets Practical Algorithms [33.61487362513345]
本稿では、教師付きおよび教師なしのオンラインラベルシフトに焦点を当て、クラス境界の$Q(y)$は異なるが、クラス条件の$Q(x|y)$は不変である。
教師なしの環境では、オフラインラベル付きデータに基づいてトレーニングされた学習者を、ラベルなしのオンラインデータに対してラベル分布を変更するように適応させることが目的です。
我々は,オンライン回帰への適応問題を低減し,ラベル分布のドリフトの程度を事前に知ることなく,最適な動的後悔を保証する新しいアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-05-31T05:39:52Z) - Cal-QL: Calibrated Offline RL Pre-Training for Efficient Online
Fine-Tuning [104.05522247411018]
オフライン強化学習(RL)手法は微調整中は動作が悪くなる傾向がある。
このような校正値関数を学習するオフラインRLアルゴリズムが効果的なオンライン微調整につながることを示す。
実際には、Cal-QLは、オフラインのRLのための保守的なQ学習(CQL)の上に、1行のコード変更で実装できる。
論文 参考訳(メタデータ) (2023-03-09T18:31:13Z) - Adaptive Behavior Cloning Regularization for Stable Offline-to-Online
Reinforcement Learning [80.25648265273155]
オフライン強化学習は、固定データセットから学習することで、環境と対話することなくエージェントの動作を学ぶことができる。
オンラインの微調整中、オフラインからオンラインデータへの突然の分散シフトにより、事前訓練されたエージェントのパフォーマンスが急速に低下する可能性がある。
エージェントの性能と訓練安定性に基づいて,オンラインファインチューニングにおける行動クローンの損失を適応的に評価することを提案する。
実験の結果,提案手法はD4RLベンチマークにおいて,最先端のオフライン-オンライン強化学習性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-10-25T09:08:26Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - Online Continual Adaptation with Active Self-Training [69.5815645379945]
本研究では,ラベルなしサンプルと限定ラベルのアクティブクエリの両方を用いて,学習者が変化に継続的に適応することを目的としたオンライン環境を提案する。
Online Self-Adaptive Mirror Descent (OSAMD)は、未ラベルのデータからオンラインの自己学習を可能にするオンライン教師学生構造を採用している。
我々は,OSAMDが実世界とシミュレーションデータの両方に限定されたラベルを持つ環境変化下で,好意的な後悔を達成していることを示す。
論文 参考訳(メタデータ) (2021-06-11T17:51:25Z) - OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement
Learning [107.6943868812716]
エージェントは大量のオフライン体験データにアクセスでき、オンライン環境へのアクセスは極めて限られている。
我々の主な洞察は、様々な行動からなるオフラインデータを提示すると、このデータを活用する効果的な方法は、反復的かつ時間的に拡張された原始的行動の連続的な空間を抽出することである。
オフラインポリシ最適化のメリットに加えて,このようなオフラインプリミティブ学習の実施も,数発の模倣学習の改善に有効であることを示す。
論文 参考訳(メタデータ) (2020-10-26T14:31:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。