論文の概要: Asymptotically Optimal Problem-Dependent Bandit Policies for Transfer Learning
- arxiv url: http://arxiv.org/abs/2509.19098v1
- Date: Tue, 23 Sep 2025 14:47:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.905317
- Title: Asymptotically Optimal Problem-Dependent Bandit Policies for Transfer Learning
- Title(参考訳): 伝達学習のための漸近的最適問題依存帯域ポリシー
- Authors: Adrien Prevost, Timothee Mathieu, Odalric-Ambrym Maillard,
- Abstract要約: 移動学習環境における非文脈的マルチアームバンディット問題について検討する。
KL-UCB-Transferは、ガウスの場合のこの新しい境界に一致する単純なインデックスポリシーである。
- 参考スコア(独自算出の注目度): 6.1364879462585185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the non-contextual multi-armed bandit problem in a transfer learning setting: before any pulls, the learner is given N'_k i.i.d. samples from each source distribution nu'_k, and the true target distributions nu_k lie within a known distance bound d_k(nu_k, nu'_k) <= L_k. In this framework, we first derive a problem-dependent asymptotic lower bound on cumulative regret that extends the classical Lai-Robbins result to incorporate the transfer parameters (d_k, L_k, N'_k). We then propose KL-UCB-Transfer, a simple index policy that matches this new bound in the Gaussian case. Finally, we validate our approach via simulations, showing that KL-UCB-Transfer significantly outperforms the no-prior baseline when source and target distributions are sufficiently close.
- Abstract(参考訳): 本研究では,移動学習環境における非コンテキスト的マルチアームバンディット問題について検討する:任意のプル前,学習者は各ソース分布 nu'_k から N'_k,d.d. のサンプルを与えられ,真のターゲット分布 nu_k は既知の距離境界 d_k(nu_k, nu'_k) <= L_k に含まれる。
この枠組みでは、まず古典的なレイ・ロビンスの結果を拡張する累積後悔に基づく問題依存的漸近的下界を導出し、転送パラメータ(d_k, L_k, N'_k)を組み込む。
KL-UCB-Transfer(英語版)はガウスの場合のこの新しい境界に一致する単純な指標ポリシーである。
最後に、KL-UCB-Transferは、ソースとターゲットの分布が十分近い場合に、非プライオリンのベースラインを著しく上回っていることを示す。
関連論文リスト
- Continuous K-Max Bandits [54.21533414838677]
我々は、連続的な結果分布と弱い値-インデックスフィードバックを持つ、$K$-Maxのマルチアームバンディット問題について検討する。
この設定は、レコメンデーションシステム、分散コンピューティング、サーバスケジューリングなどにおいて重要なアプリケーションをキャプチャします。
我々の重要な貢献は、適応的な離散化とバイアス補正された信頼境界を組み合わせた計算効率の良いアルゴリズムDCK-UCBである。
論文 参考訳(メタデータ) (2025-02-19T06:37:37Z) - Data-Driven Upper Confidence Bounds with Near-Optimal Regret for Heavy-Tailed Bandits [0.0]
対称な報酬分布のための分布自由データ駆動型 UCB アルゴリズムを提案する。
パラメータフリーなRMM-UCB法では,重み付き分布であっても,ほぼ最適の残差を証明した。
論文 参考訳(メタデータ) (2024-06-09T10:06:50Z) - Generalized Schrödinger Bridge Matching [54.171931505066]
一般化Schr"odinger Bridge (GSB) 問題設定は、機械学習の内外を問わず、多くの科学領域で一般的である。
我々は最近の進歩に触発された新しいマッチングアルゴリズムである一般化シュリンガーブリッジマッチング(GSBM)を提案する。
このような一般化は条件最適制御の解法として、変分近似を用いることができることを示す。
論文 参考訳(メタデータ) (2023-10-03T17:42:11Z) - The Choice of Noninformative Priors for Thompson Sampling in
Multiparameter Bandit Models [56.31310344616837]
トンプソンサンプリング(TS)は、様々な報酬モデルにまたがる理論的な保証によって支持される卓越した経験的性能で知られている。
本研究では,理論的理解の欠如のある新しいモデルを扱う際に,非形式的事前選択がTSの性能に与える影響について考察する。
論文 参考訳(メタデータ) (2023-02-28T08:42:42Z) - On Best-Arm Identification with a Fixed Budget in Non-Parametric
Multi-Armed Bandits [0.0]
我々は、腕上の分布の一般、おそらくはパラメトリックでないモデルDを考える。
情報理論量に基づいて最適なアームを誤識別する平均対数確率の上限を提案する。
論文 参考訳(メタデータ) (2022-09-30T10:55:40Z) - From Optimality to Robustness: Dirichlet Sampling Strategies in
Stochastic Bandits [0.0]
本研究では、腕の観察を再サンプリングした経験的指標のペア比較に基づいて、ジェネリックディリクレサンプリング(DS)アルゴリズムについて検討する。
この戦略の異なる変種は、分布が有界であるときに証明可能な最適後悔保証と、半有界分布に対して軽度量子状態の対数後悔を実現することを示す。
論文 参考訳(メタデータ) (2021-11-18T14:34:21Z) - Sharp Bounds for Federated Averaging (Local SGD) and Continuous
Perspective [49.17352150219212]
Federated AveragingFedAvg(ローカルSGD)は、Federated Learning(FL)で最も人気のあるアルゴリズムの1つである。
微分方程式(SDE)の観点から、この量を解析する方法を示す。
論文 参考訳(メタデータ) (2021-11-05T22:16:11Z) - Minibatch vs Local SGD with Shuffling: Tight Convergence Bounds and
Beyond [63.59034509960994]
シャッフルに基づく変種(ミニバッチと局所ランダムリシャッフル)について検討する。
ポリアック・ロジャシエヴィチ条件を満たす滑らかな函数に対して、これらのシャッフル型不変量(英語版)(shuffling-based variants)がそれらの置換式よりも早く収束することを示す収束境界を得る。
我々は, 同期シャッフル法と呼ばれるアルゴリズムの修正を提案し, ほぼ均一な条件下では, 下界よりも収束速度が速くなった。
論文 参考訳(メタデータ) (2021-10-20T02:25:25Z) - A PAC-Bayesian Analysis of Distance-Based Classifiers: Why
Nearest-Neighbour works! [12.317405551932195]
K-nearest-neighbour分類器(K-NN)の一般化誤差に対するPAC-Bayesian境界
我々は、カーネル展開における係数に関する事前測度と、カーネル空間における重みベクトルに関する誘導測度との関係を確立する。
論文 参考訳(メタデータ) (2021-09-28T17:35:57Z) - Sparse Feature Selection Makes Batch Reinforcement Learning More Sample
Efficient [62.24615324523435]
本稿では,スパース線形関数近似を用いた高次元バッチ強化学習(RL)の統計的解析を行う。
候補となる機能が多数存在する場合,提案手法がバッチRLをより効率的にサンプリングできるという事実に光を当てる。
論文 参考訳(メタデータ) (2020-11-08T16:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。