論文の概要: A UCB Bandit Algorithm for General ML-Based Estimators
- arxiv url: http://arxiv.org/abs/2601.01061v2
- Date: Tue, 06 Jan 2026 03:08:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 13:14:29.376196
- Title: A UCB Bandit Algorithm for General ML-Based Estimators
- Title(参考訳): 一般MLに基づく推定器のための UCB Bandit アルゴリズム
- Authors: Yajing Liu, Erkao Bao, Linqi Song,
- Abstract要約: ML-UCBは、任意の機械学習モデルとマルチアームバンディットフレームワークを統合する一般化された高信頼度有界アルゴリズムである。
シーケンシャルな意思決定のための洗練されたMLモデルをデプロイする際の根本的な課題は、トラクタブルな集中不平等の欠如である。
- 参考スコア(独自算出の注目度): 24.963296301798252
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present ML-UCB, a generalized upper confidence bound algorithm that integrates arbitrary machine learning models into multi-armed bandit frameworks. A fundamental challenge in deploying sophisticated ML models for sequential decision-making is the lack of tractable concentration inequalities required for principled exploration. We overcome this limitation by directly modeling the learning curve behavior of the underlying estimator. Specifically, assuming the Mean Squared Error decreases as a power law in the number of training samples, we derive a generalized concentration inequality and prove that ML-UCB achieves sublinear regret. This framework enables the principled integration of any ML model whose learning curve can be empirically characterized, eliminating the need for model-specific theoretical analysis. We validate our approach through experiments on a collaborative filtering recommendation system using online matrix factorization with synthetic data designed to simulate a simplified two-tower model, demonstrating substantial improvements over LinUCB
- Abstract(参考訳): ML-UCBは、任意の機械学習モデルとマルチアームバンディットフレームワークを統合する一般化された高信頼度有界アルゴリズムである。
シーケンシャルな意思決定のために洗練されたMLモデルをデプロイする上での根本的な課題は、原理的な探索に必要なトラクタブルな集中不平等の欠如である。
我々は、基礎となる推定器の学習曲線の挙動を直接モデル化することで、この制限を克服する。
具体的には、平均正方形誤差がトレーニングサンプル数におけるパワー則として減少すると仮定すると、一般化された濃度不等式が導出され、ML-UCBがサブ線形後悔を達成することが証明される。
このフレームワークは、学習曲線を経験的に特徴付けることができる任意のMLモデルの原則的な統合を可能にし、モデル固有の理論解析の必要性を排除している。
簡易な2-towerモデルのシミュレーションを目的とした合成データを用いたオンライン行列分解を用いた協調フィルタリング推薦システム実験により,LinUCBの精度向上を実証し,本手法の有効性を検証した。
関連論文リスト
- On Discriminative Probabilistic Modeling for Self-Supervised Representation Learning [85.75164588939185]
本研究では,(マルチモーダル)自己教師型表現学習のデータ予測タスクにおいて,連続領域における識別確率モデルについて検討する。
我々は、自己教師付き表現学習における現在のInfoNCEに基づくコントラスト損失の制限を明らかにするために一般化誤差解析を行う。
MISが要求する条件付き確率密度の和を近似する新しい非パラメトリック手法を提案する。
論文 参考訳(メタデータ) (2024-10-11T18:02:46Z) - Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL [57.745700271150454]
モデルに基づく関数近似を用いた平均フィールドゲーム(MFG)における強化学習のサンプル複雑性について検討した。
本稿では、モデルクラスの複雑性を特徴付けるためのより効果的な概念である部分モデルベースエルダー次元(P-MBED)を紹介する。
論文 参考訳(メタデータ) (2024-02-08T14:54:47Z) - Hyperparameter Estimation for Sparse Bayesian Learning Models [1.0172874946490507]
Aparse Bayesian Learning (SBL) モデルは、信号処理や機械学習において、階層的な事前処理による疎結合を促進するために広く使われている。
本稿では,種々の目的関数に対するSBLモデルの改良のためのフレームワークを提案する。
信号雑音比において, 高い効率性を示す新しいアルゴリズムが導入された。
論文 参考訳(メタデータ) (2024-01-04T21:24:01Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - Meta Learning in the Continuous Time Limit [36.23467808322093]
モデルAメタラーニング(MAML)の学習力学の基礎となる常微分方程式(ODE)を確立する。
本稿では,既存のMAMLトレーニング手法に関連する計算負担を大幅に軽減するBI-MAMLトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-19T01:47:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。