論文の概要: Influence Diagram Bandits: Variational Thompson Sampling for Structured
Bandit Problems
- arxiv url: http://arxiv.org/abs/2007.04915v1
- Date: Thu, 9 Jul 2020 16:25:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 03:30:18.278246
- Title: Influence Diagram Bandits: Variational Thompson Sampling for Structured
Bandit Problems
- Title(参考訳): ダイアグラム帯域の影響:構造帯域問題に対する変分トンプソンサンプリング
- Authors: Tong Yu, Branislav Kveton, Zheng Wen, Ruiyi Zhang, Ole J. Mengshoel
- Abstract要約: 我々のフレームワークは、アクション、潜伏変数、観察の間の複雑な統計的依存関係をキャプチャする。
我々のモデルで効率的に行動することを学ぶ新しいオンライン学習アルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 40.957688390621385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel framework for structured bandits, which we call an
influence diagram bandit. Our framework captures complex statistical
dependencies between actions, latent variables, and observations; and thus
unifies and extends many existing models, such as combinatorial semi-bandits,
cascading bandits, and low-rank bandits. We develop novel online learning
algorithms that learn to act efficiently in our models. The key idea is to
track a structured posterior distribution of model parameters, either exactly
or approximately. To act, we sample model parameters from their posterior and
then use the structure of the influence diagram to find the most optimistic
action under the sampled parameters. We empirically evaluate our algorithms in
three structured bandit problems, and show that they perform as well as or
better than problem-specific state-of-the-art baselines.
- Abstract(参考訳): 本稿では,構造付きバンディットの新しい枠組みを提案し,これをインフルエンスダイアグラムバンディットと呼ぶ。
本フレームワークは, 動作, 潜伏変数, 観測の複雑な統計的依存関係を捉え, 組み合わせ半帯域, カスケードバンド, ローランクバンディットなど, 既存のモデルの多くを統一・拡張する。
我々のモデルで効率的に行動することを学ぶ新しいオンライン学習アルゴリズムを開発した。
キーとなる考え方は、モデルパラメータの構造的後部分布を正確にあるいはほぼ追跡することである。
動作するために、モデルパラメータを後部からサンプリングし、次に影響図の構造を用いて、サンプリングされたパラメータの下で最も楽観的なアクションを見つける。
我々は3つの構造化バンディット問題において,アルゴリズムを経験的に評価し,問題に固有のベースラインよりも優れた性能を示す。
関連論文リスト
- Discrete Choice Multi-Armed Bandits [0.0]
本稿では,個別選択モデルのカテゴリとオンライン学習とマルチアームバンディットアルゴリズムの領域の関連性を確立する。
我々は、Exp3アルゴリズムを特定のケースとして包含して、包括的アルゴリズム群に対するサブ線形後悔境界を提供する。
一般化されたネストロジットモデルからインスピレーションを得た,対向多重武装バンディットアルゴリズムの新たなファミリーを導入する。
論文 参考訳(メタデータ) (2023-10-01T03:41:04Z) - Generalizing Hierarchical Bayesian Bandits [14.986031916712108]
文脈的盗賊は、不確実性の下で行動するためのオンライン学習の一般的かつ実践的なフレームワークである。
本研究では,2段階のグラフィカルモデルを用いて,そのような相関関係を捉えるための一般的なフレームワークを提案する。
本稿では,この構造を用いて効率的に探索し,ベイズを後悔させるトンプソンサンプリングアルゴリズムG-HierTSを提案する。
論文 参考訳(メタデータ) (2022-05-30T14:17:56Z) - Towards Scalable and Robust Structured Bandits: A Meta-Learning
Framework [11.778985277618354]
本稿では,パラメータ空間をアイテムレベルに分解できる構造化バンディット問題に対する統一メタラーニングフレームワークを提案する。
新たなバンディットアルゴリズムは、多くの一般的な問題に適用可能であり、巨大なパラメータやアクション空間にスケール可能であり、一般化モデルの仕様に頑健である。
論文 参考訳(メタデータ) (2022-02-26T20:54:55Z) - Deep Hierarchy in Bandits [51.22833900944146]
行動の報酬は、しばしば相関する。
統計的効率を最大化するためには,これらの相関を学習に活用することが重要である。
平均作用報酬の相関が階層的ベイズモデルで表されるこの問題のバンディット変法を定式化する。
論文 参考訳(メタデータ) (2022-02-03T08:15:53Z) - Analysis of Thompson Sampling for Partially Observable Contextual
Multi-Armed Bandits [1.8275108630751844]
我々は、部分的に観測可能なコンテキスト多重武装バンディットのためのトンプソンサンプリングアルゴリズムを提案する。
提示された政策の後悔は、時間と武器の数に応じて対数的にスケールし、寸法と直線的にスケールすることを示す。
論文 参考訳(メタデータ) (2021-10-23T08:51:49Z) - On Learning to Rank Long Sequences with Contextual Bandits [17.97356309346139]
本稿では,様々な報酬と損失を伴うフレキシブルな長さ列を考慮したカスケーディング・バンディットモデルを提案する。
我々の分析は、バニラカスケードの盗賊に特化して、文献で以前よりも厳しい保証をもたらす厳格な後悔の限界を提供する。
論文 参考訳(メタデータ) (2021-06-07T12:16:34Z) - Bias-Robust Bayesian Optimization via Dueling Bandit [57.82422045437126]
ベイジアン最適化は、観測が逆偏りとなるような環境において考慮する。
情報指向サンプリング(IDS)に基づくダリングバンディットの新しい手法を提案する。
これにより、累積的後悔保証を伴う帯域幅の並列化のための、最初の効率的なカーネル化アルゴリズムが得られる。
論文 参考訳(メタデータ) (2021-05-25T10:08:41Z) - Characterizing Fairness Over the Set of Good Models Under Selective
Labels [69.64662540443162]
同様の性能を実現するモデルセットに対して,予測公正性を特徴付けるフレームワークを開発する。
到達可能なグループレベルの予測格差の範囲を計算するためのトラクタブルアルゴリズムを提供します。
選択ラベル付きデータの実証的な課題に対処するために、我々のフレームワークを拡張します。
論文 参考訳(メタデータ) (2021-01-02T02:11:37Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - Latent Bandits Revisited [55.88616813182679]
潜伏盗賊問題は、学習エージェントが未知の離散潜伏状態に条件付けられた腕の報酬分布を知知する問題である。
本稿では, 上位信頼境界(UCB)とトンプソンサンプリング(Thompson sample)の両方に基づいて, この設定のための一般的なアルゴリズムを提案する。
我々はアルゴリズムの統一的な理論的解析を行い、遅延状態の数がアクションよりも小さい場合、古典的なバンディットポリシーよりも後悔度が低い。
論文 参考訳(メタデータ) (2020-06-15T19:24:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。