論文の概要: Generalizing Hierarchical Bayesian Bandits
- arxiv url: http://arxiv.org/abs/2205.15124v1
- Date: Mon, 30 May 2022 14:17:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 14:49:43.937741
- Title: Generalizing Hierarchical Bayesian Bandits
- Title(参考訳): 階層ベイズバンドの一般化
- Authors: Imad Aouali, Branislav Kveton, Sumeet Katariya
- Abstract要約: 文脈的盗賊は、不確実性の下で行動するためのオンライン学習の一般的かつ実践的なフレームワークである。
本研究では,2段階のグラフィカルモデルを用いて,そのような相関関係を捉えるための一般的なフレームワークを提案する。
本稿では,この構造を用いて効率的に探索し,ベイズを後悔させるトンプソンサンプリングアルゴリズムG-HierTSを提案する。
- 参考スコア(独自算出の注目度): 14.986031916712108
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A contextual bandit is a popular and practical framework for online learning
to act under uncertainty. In many problems, the number of actions is huge and
their mean rewards are correlated. In this work, we introduce a general
framework for capturing such correlations through a two-level graphical model
where actions are related through multiple shared latent parameters. We propose
a Thompson sampling algorithm G-HierTS that uses this structure to explore
efficiently and bound its Bayes regret. The regret has two terms, one for
learning action parameters and the other for learning the shared latent
parameters. The terms reflect the structure of our model as well as the quality
of priors. Our theoretical findings are validated empirically using both
synthetic and real-world problems. We also experiment with G-HierTS that
maintains a factored posterior over latent parameters. While this approximation
does not come with guarantees, it improves computational efficiency with a
minimal impact on empirical regret.
- Abstract(参考訳): 文脈的盗賊は、不確実性の下で行動するためのオンライン学習の一般的かつ実践的なフレームワークである。
多くの問題において、アクションの数は巨大であり、その平均報酬は相関している。
本研究では,複数の共用潜在パラメータを介して行動が関連づけられる2段階のグラフィカルモデルを用いて,そのような相関関係を捉えるための一般的なフレームワークを提案する。
本稿では,この構造を用いて効率的に探索し,ベイズを後悔させるトンプソンサンプリングアルゴリズムG-HierTSを提案する。
後悔には2つの用語があり、1つはアクションパラメータを学習し、もう1つは共有潜在パラメータを学習する。
この用語は、私たちのモデルの構造と事前の質を反映しています。
本研究は,合成問題と実世界問題の両方を用いて実証実験を行った。
またG-HierTSを用いて潜伏パラメータの因子的後部を維持する実験を行った。
この近似は保証を伴わないが、経験的後悔に最小限の影響で計算効率を向上させる。
関連論文リスト
- Batch Ensemble for Variance Dependent Regret in Stochastic Bandits [41.95653110232677]
オンライン強化学習(RL:Reinforcement Learning)において、探索と搾取を効果的に行うことが重要な課題の1つだ。
実践的なアンサンブル法に着想を得た本研究では,マルチアーマッド・バンディット(MAB)のほぼ最適後悔を実現する,単純かつ新しいバッチアンサンブル方式を提案する。
提案アルゴリズムは, バッチ数という1つのパラメータしか持たず, 損失のスケールや分散といった分布特性に依存しない。
論文 参考訳(メタデータ) (2024-09-13T06:40:56Z) - Beyond Two-Tower Matching: Learning Sparse Retrievable
Cross-Interactions for Recommendation [80.19762472699814]
2-towerモデルは、産業アプリケーションに広くデプロイされている推奨のための一般的なマッチングフレームワークである。
機能間相互作用の制限と、オンラインサービスにおける精度の低下など、主な課題が2つある。
我々は,高度な機能相互作用だけでなく,効率的な検索もサポートするSparCodeという新しいマッチングパラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-30T03:13:36Z) - Variance-Aware Regret Bounds for Stochastic Contextual Dueling Bandits [53.281230333364505]
本稿では, 一般化線形モデル(GLM)から, デュエルアームのバイナリ比較を生成するコンテキストデュエルバンド問題について検討する。
本稿では,SupLinUCB型アルゴリズムを提案する。このアルゴリズムは,計算効率と分散を意識したリセットバウンド$tilde Obig(dsqrtsum_t=1Tsigma_t2 + dbig)$を提案する。
我々の後悔は、比較が決定論的である場合の直感的な期待と自然に一致し、アルゴリズムは$tilde O(d)$ regretにのみ悩まされる。
論文 参考訳(メタデータ) (2023-10-02T08:15:52Z) - Langevin Thompson Sampling with Logarithmic Communication: Bandits and
Reinforcement Learning [34.4255062106615]
トンプソンサンプリング(TS)は、使用が容易で、経験的性能に訴えるため、シーケンシャルな意思決定に広く用いられている。
バッチ化された$textitLangevin Thompson Sampling$アルゴリズムを提案する。
アルゴリズムは計算効率が高く,MABでは$mathcalO(log T)$,RLでは$mathcalO(sqrtT)$と同じオーダー最適後悔保証を維持している。
論文 参考訳(メタデータ) (2023-06-15T01:16:29Z) - Latent Feature Relation Consistency for Adversarial Robustness [80.24334635105829]
深層ニューラルネットワークは、人間の知覚できない敵のノイズを自然の例に付加する敵の例を予測するときに、誤分類が起こる。
textbfLatent textbfFeature textbfRelation textbfConsistency (textbfLFRC)を提案する。
LFRCは、潜在空間における逆例の関係を、自然例と整合性に制約する。
論文 参考訳(メタデータ) (2023-03-29T13:50:01Z) - Online Continuous Hyperparameter Optimization for Generalized Linear Contextual Bandits [55.03293214439741]
文脈的包帯では、エージェントは過去の経験に基づいた時間依存アクションセットから順次アクションを行う。
そこで本稿では,文脈的包帯のためのオンライン連続型ハイパーパラメータチューニングフレームワークを提案する。
理論上はサブ線形の後悔を達成でき、合成データと実データの両方において既存のすべての手法よりも一貫して優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-02-18T23:31:20Z) - Dual Instrumental Method for Confounded Kernelized Bandits [0.0]
文脈的帯域幅問題は、様々な分野の幅広い応用のフレームワークである。
本稿では,騒音がコンテキストと報酬の両方に影響を与える潜在的共同設立者となる,包括的バンドイット問題を提案する。
双対楽器変数回帰は真の報酬関数を正しく識別できることを示す。
論文 参考訳(メタデータ) (2022-09-07T15:25:57Z) - Deep Hierarchy in Bandits [51.22833900944146]
行動の報酬は、しばしば相関する。
統計的効率を最大化するためには,これらの相関を学習に活用することが重要である。
平均作用報酬の相関が階層的ベイズモデルで表されるこの問題のバンディット変法を定式化する。
論文 参考訳(メタデータ) (2022-02-03T08:15:53Z) - Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。
ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。
本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-11T03:38:16Z) - Influence Diagram Bandits: Variational Thompson Sampling for Structured
Bandit Problems [40.957688390621385]
我々のフレームワークは、アクション、潜伏変数、観察の間の複雑な統計的依存関係をキャプチャする。
我々のモデルで効率的に行動することを学ぶ新しいオンライン学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-07-09T16:25:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。