論文の概要: Empirical Bayesian Multi-Bandit Learning
- arxiv url: http://arxiv.org/abs/2510.26284v2
- Date: Thu, 06 Nov 2025 00:56:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 15:57:27.692139
- Title: Empirical Bayesian Multi-Bandit Learning
- Title(参考訳): 経験的ベイズ多言語学習
- Authors: Xia Jiang, Rong J. B. Zhu,
- Abstract要約: 文脈的包帯におけるマルチタスク学習は、大きな研究関心を集めている。
本稿では,様々な帯域で学習する階層型ベイズフレームワークを提案する。
提案アルゴリズムは既存の手法に比べて累積的後悔度が低いことを示す。
- 参考スコア(独自算出の注目度): 8.980876474818153
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-task learning in contextual bandits has attracted significant research interest due to its potential to enhance decision-making across multiple related tasks by leveraging shared structures and task-specific heterogeneity. In this article, we propose a novel hierarchical Bayesian framework for learning in various bandit instances. This framework captures both the heterogeneity and the correlations among different bandit instances through a hierarchical Bayesian model, enabling effective information sharing while accommodating instance-specific variations. Unlike previous methods that overlook the learning of the covariance structure across bandits, we introduce an empirical Bayesian approach to estimate the covariance matrix of the prior distribution. This enhances both the practicality and flexibility of learning across multi-bandits. Building on this approach, we develop two efficient algorithms: ebmTS (Empirical Bayesian Multi-Bandit Thompson Sampling) and ebmUCB (Empirical Bayesian Multi-Bandit Upper Confidence Bound), both of which incorporate the estimated prior into the decision-making process. We provide the frequentist regret upper bounds for the proposed algorithms, thereby filling a research gap in the field of multi-bandit problems. Extensive experiments on both synthetic and real-world datasets demonstrate the superior performance of our algorithms, particularly in complex environments. Our methods achieve lower cumulative regret compared to existing techniques, highlighting their effectiveness in balancing exploration and exploitation across multi-bandits.
- Abstract(参考訳): 文脈的包帯におけるマルチタスク学習は、共有構造とタスク固有の不均一性を活用することで、複数の関連するタスク間の意思決定を強化する可能性から、大きな研究関心を集めている。
本稿では,様々な帯域で学習する階層型ベイズフレームワークを提案する。
このフレームワークは、階層的ベイズモデルにより、異なるバンディットインスタンス間の不均一性と相関の両方をキャプチャし、インスタンス固有のバリエーションを調整しながら効果的な情報共有を可能にする。
バンディット間の共分散構造の学習を無視する従来の方法とは異なり、我々は、先行分布の共分散行列を推定する経験的ベイズ的アプローチを導入する。
これにより、マルチバンド間の学習の実践性と柔軟性が向上する。
提案手法は,Empirical Bayesian Multi-Bandit Thompson Smpling (Empirical Bayesian Multi-Bandit Thompson Smpling) と ebmUCB (Empirical Bayesian Multi-Bandit Upper Confidence Bound) の2つの効率的なアルゴリズムを開発した。
本稿では,提案アルゴリズムに対する頻繁な後悔の上限を与え,マルチバンド問題の分野における研究ギャップを埋める。
合成と実世界の両方のデータセットに対する大規模な実験は、アルゴリズム、特に複雑な環境での優れた性能を示している。
提案手法は,既存手法と比較して累積的後悔度を低くし,マルチバンド間の探索と利用のバランスをとる上での有効性を強調した。
関連論文リスト
- Multi-Armed Sampling Problem and the End of Exploration [14.824891788575417]
本稿では,マルチアームバンディットの最適化問題に対するサンプリングとして,マルチアームサンプリングの枠組みを紹介する。
本稿では,この枠組みに対する後悔の概念を具現化し,それに対応する下界を確立するアルゴリズムを提案する。
我々の研究は、エントロピー規則化強化学習のためのアルゴリズムの探索の必要性と収束性に光を当てている。
論文 参考訳(メタデータ) (2025-07-14T20:50:51Z) - Context Attribution with Multi-Armed Bandit Optimization [11.715006981206844]
本稿では,コンテキスト属性をCMAB(Multi-armed bandit)問題として定式化する新しいフレームワークを提案する。
我々は、限られたクエリ予算の下で、指数的に大きなコンテキストサブセットの空間を効率的に探索するために、 Combinatorial Thompson Sampling (CTS) を採用している。
本手法は,正規化トークンの確率に基づいて報酬関数を定義し,セグメントのサブセットが元のモデル応答をどれだけうまくサポートしているかを抽出する。
論文 参考訳(メタデータ) (2025-06-24T19:47:27Z) - Demystifying Online Clustering of Bandits: Enhanced Exploration Under Stochastic and Smoothed Adversarial Contexts [27.62165569135504]
バンディットのオンラインクラスタリングとして知られる一連の研究は、類似のユーザをクラスタにグループ化することで、コンテキストMABを拡張している。
既存のアルゴリズムは、上位信頼境界(UCB)戦略に依存しており、未知のユーザクラスタを正確に識別するために十分な統計情報を集めるのに苦労している。
クラスタ識別を高速化する探索機構を改良した,UniCLUB と PhaseUniCLUB の2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-01T16:38:29Z) - Deep Boosting Learning: A Brand-new Cooperative Approach for Image-Text Matching [53.05954114863596]
画像テキストマッチングのための新しいDeep Boosting Learning (DBL)アルゴリズムを提案する。
アンカーブランチは、まずデータプロパティに関する洞察を提供するために訓練される。
ターゲットブランチは、一致したサンプルと未一致のサンプルとの相対距離をさらに拡大するために、より適応的なマージン制約を同時に課される。
論文 参考訳(メタデータ) (2024-04-28T08:44:28Z) - Risk-Sensitive Soft Actor-Critic for Robust Deep Reinforcement Learning
under Distribution Shifts [11.765000124617186]
本研究では、文脈多段階最適化問題における分散シフトに対する深層強化学習アルゴリズムの堅牢性について検討する。
提案アルゴリズムは,リスクニュートラルなソフトアクター・クライブや,頑健な深層強化学習のための2つのベンチマーク手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-15T14:55:38Z) - A Fast Algorithm for the Real-Valued Combinatorial Pure Exploration of Multi-Armed Bandit [55.2480439325792]
多武装バンディット(R-CPE-MAB)の真価純探査問題について検討する。
本稿では,差分に基づく探索法 (CombGapE) アルゴリズムを提案する。
我々は,CombGapEアルゴリズムが,合成データセットと実世界のデータセットの両方において,既存の手法を大幅に上回っていることを数値的に示す。
論文 参考訳(メタデータ) (2023-06-15T15:37:31Z) - Synergies between Disentanglement and Sparsity: Generalization and
Identifiability in Multi-Task Learning [79.83792914684985]
我々は,最大スパース基底予測器が不整合表現をもたらす条件を提供する新しい識別可能性の結果を証明した。
この理論的な結果から,両レベル最適化問題に基づくアンタングル表現学習の実践的アプローチを提案する。
論文 参考訳(メタデータ) (2022-11-26T21:02:09Z) - Instance-Dependent Complexity of Contextual Bandits and Reinforcement
Learning: A Disagreement-Based Perspective [104.67295710363679]
古典的なマルチアームバンディット問題において、インスタンス依存アルゴリズムは、ベストとセカンドベストのアーム間のギャップで「容易」な問題のパフォーマンスを向上させる。
我々は、インスタンス依存の後悔境界を得るのに十分かつ必要である複雑性尺度のファミリーを導入する。
次に、可能な限りギャップに適応する新しいオラクル効率アルゴリズムを導入し、最悪の場合にはミニマックスレートを得る。
論文 参考訳(メタデータ) (2020-10-07T01:33:06Z) - Benchmarking Multi-Agent Deep Reinforcement Learning Algorithms in
Cooperative Tasks [11.480994804659908]
マルチエージェント深部強化学習(MARL)は、一般的に使われている評価課題や基準の欠如に悩まされている。
我々は,MARLアルゴリズムの3つのクラスを体系的に評価し,比較する。
我々の実験は、異なる学習課題におけるアルゴリズムの期待性能の基準として機能する。
論文 参考訳(メタデータ) (2020-06-14T11:22:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。