論文の概要: Sample-Mean Anchored Thompson Sampling for Offline-to-Online Learning with Distribution Shift
- arxiv url: http://arxiv.org/abs/2605.10289v1
- Date: Mon, 11 May 2026 09:50:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.707891
- Title: Sample-Mean Anchored Thompson Sampling for Offline-to-Online Learning with Distribution Shift
- Title(参考訳): 分布シフトを用いたオフライン・オンライン学習のためのサンプル平均アンコレッドトンプサンプリング
- Authors: Bochao Li, Yao Fu, Wei Chen, Fang Kong,
- Abstract要約: オフラインからオンラインへの学習における中心的な課題は、オフラインデータとオンラインデータの分散シフトである。
本稿では, 腕指数をオンライン後部サンプル, ハイブリッド後部サンプル, オンライン平均の中央値として定義する, 新たな中央値に基づくアンカールールを提案する。
我々は,提案アルゴリズムがオフラインデータを安全に活用してオンライン学習を加速することを示す理論的保証を確立する。
- 参考スコア(独自算出の注目度): 24.048629084196904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline-to-online learning aims to improve online decision-making by leveraging offline logged data. A central challenge in this setting is the distribution shift between offline and online environments. While some existing works attempt to leverage shifted offline data, they largely rely on UCB-type algorithms. Thompson sampling (TS) represents another canonical class of bandit algorithms, well known for its strong empirical performance and naturally suited to offline-to-online learning through its Bayesian formulation. However, unlike UCB indices, posterior samples in TS are not guaranteed to be optimistic with respect to the true arm means. This makes indices constructed from purely online and hybrid data difficult to compare and complicates their use. To address this issue, we propose sample-mean anchored TS (Anchor-TS), which introduces a novel median-based anchoring rule that defines the arm index as the median of an online posterior sample, a hybrid posterior sample, and the online sample mean. The median anchoring systematically corrects bias induced by distribution shift by mitigating over-estimation for suboptimal arms and under-estimation for optimal arms, while exploiting offline information to obtain more accurate estimates when the shift is small. We establish theoretical guarantees showing that the proposed algorithm safely leverages offline data to accelerate online learning, and quantifying how the degree of distribution shift and the size of offline data affect the resulting regret reduction. Extensive experiments demonstrate consistent improvements of our algorithm over baselines.
- Abstract(参考訳): オフラインからオンラインへの学習は、オフラインログデータを活用することでオンライン意思決定を改善することを目的としている。
この設定における中心的な課題は、オフライン環境とオンライン環境の間の分散シフトである。
既存のいくつかの作業は、シフトしたオフラインデータを活用しようとするが、主に UCB 型アルゴリズムに依存している。
トンプソンサンプリング(TS)は、その強い経験的性能で知られ、ベイズ式によるオフライン-オンライン学習に自然に適している、別の標準的バンディットアルゴリズムのクラスである。
しかし、UTB指標とは異なり、TSの後方サンプルは真のアーム手段に対して楽観的であるという保証はない。
これにより、純粋なオンラインデータとハイブリッドデータから構築されたインデックスを比較、複雑化するのが難しくなる。
この問題に対処するために,サンプル平均アンカーTS(Anchor-TS)を提案する。これは,腕指数をオンライン後部サンプル,ハイブリッド後部サンプル,オンラインサンプル平均の中央値として定義する,新しい中央値ベースのアンカールールを導入する。
中央アンカーは、最適アームの過大評価を軽減し、最適アームの過小評価を緩和し、オフライン情報を利用して、シフトが小さいときにより正確な推定値を得ることにより、分布シフトによって引き起こされるバイアスを体系的に補正する。
我々は,提案アルゴリズムがオフラインデータを安全に活用してオンライン学習を促進できることを理論的に保証し,オフラインデータの分布変化の程度とサイズが,結果として生じる後悔の低減にどのように影響するかを定量化する。
大規模な実験では、ベースラインよりもアルゴリズムが一貫した改善を実証している。
関連論文リスト
- Geometry-Aware Offline-to-Online Learning in Linear Contextual Bandits [5.0861449841476984]
バイアス付きオフライン回帰データを用いた線形文脈帯域におけるオフライン-オンライン学習について検討した。
EmphEllipsoidal-MINUCBを提案する。これは標準オンラインブランチとオフラインインフォームドプールブランチを組み合わせたものだ。
有限個のリフレッシュ時間でデータ駆動証明書を学習し,楕円体-MINUCB に対して高い確率でリフレッシュする手法を示す。
論文 参考訳(メタデータ) (2026-04-27T03:53:30Z) - Hybrid Combinatorial Multi-armed Bandits with Probabilistically Triggered Arms [10.146314852311638]
我々は,オフラインデータとオンラインインタラクションを原則的に統合する新しいフレームワークであるCMAB-Tを提案する。
提案するハイブリッドCUCBアルゴリズムは,オフラインデータを利用して探索をガイドし,収束を加速する。
我々はアルゴリズムの後悔を理論的に保証し、ハイブリッドCUCBが純粋にオンラインアプローチを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2025-12-26T08:42:12Z) - Best Arm Identification with Possibly Biased Offline Data [56.965938201853625]
固定された信頼度設定において、潜在的にバイアスのあるオフラインデータを用いた最適な腕識別問題について検討する。
補助バイアス補正を組み込んだLUCB-Hアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-05-29T06:58:49Z) - Understanding the performance gap between online and offline alignment algorithms [63.137832242488926]
オフラインのアルゴリズムは、ペアの分類が得意になるようにポリシーを訓練し、オンラインのアルゴリズムは世代ごとに良いことを示しています。
このことは、識別能力と生成能力の間のユニークな相互作用を示唆しており、これはサンプリングプロセスに大きく影響している。
我々の研究は、AIアライメントにおけるオンラインサンプリングの重要な役割に光を当て、オフラインアライメントアルゴリズムのある種の根本的な課題を示唆している。
論文 参考訳(メタデータ) (2024-05-14T09:12:30Z) - Online Feature Updates Improve Online (Generalized) Label Shift Adaptation [51.328801874640675]
オンライン特徴更新を用いたオンラインラベルシフト適応法(OLS-OFU)は,自己教師付き学習を利用して特徴抽出プロセスを洗練する。
アルゴリズムを慎重に設計することで、OLS-OFUは改善された特徴を考慮しつつ、文献の結果に類似したオンライン後悔の収束を維持している。
論文 参考訳(メタデータ) (2024-02-05T22:03:25Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Rapid Adaptation in Online Continual Learning: Are We Evaluating It
Right? [135.71855998537347]
オンライン連続学習(OCL)アルゴリズムの適応性を評価するための一般的な手法を,オンライン精度の指標を用いて再検討する。
空白のブラインド分類器でさえ、非現実的に高いオンライン精度を達成できるため、この指標は信頼できない。
既存のOCLアルゴリズムは、オンラインの精度も高いが、有用な情報の保持は不十分である。
論文 参考訳(メタデータ) (2023-05-16T08:29:33Z) - Bilevel Online Deep Learning in Non-stationary Environment [4.565872584112864]
Bilevel Online Deep Learning (BODL)フレームワークは、双方向最適化戦略とオンラインアンサンブル分類器を組み合わせたフレームワークである。
概念ドリフトが検出されると、BODLアルゴリズムはバイレベル最適化によりモデルパラメータを適応的に更新し、大きなドリフトを回避し、正の転送を促進する。
論文 参考訳(メタデータ) (2022-01-25T11:05:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。