論文の概要: Deep Hierarchy in Bandits
- arxiv url: http://arxiv.org/abs/2202.01454v1
- Date: Thu, 3 Feb 2022 08:15:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-04 13:27:53.507529
- Title: Deep Hierarchy in Bandits
- Title(参考訳): バンドの深い階層性
- Authors: Joey Hong, Branislav Kveton, Sumeet Katariya, Manzil Zaheer, and
Mohammad Ghavamzadeh
- Abstract要約: 行動の報酬は、しばしば相関する。
統計的効率を最大化するためには,これらの相関を学習に活用することが重要である。
平均作用報酬の相関が階層的ベイズモデルで表されるこの問題のバンディット変法を定式化する。
- 参考スコア(独自算出の注目度): 51.22833900944146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mean rewards of actions are often correlated. The form of these correlations
may be complex and unknown a priori, such as the preferences of a user for
recommended products and their categories. To maximize statistical efficiency,
it is important to leverage these correlations when learning. We formulate a
bandit variant of this problem where the correlations of mean action rewards
are represented by a hierarchical Bayesian model with latent variables. Since
the hierarchy can have multiple layers, we call it deep. We propose a
hierarchical Thompson sampling algorithm (HierTS) for this problem, and show
how to implement it efficiently for Gaussian hierarchies. The efficient
implementation is possible due to a novel exact hierarchical representation of
the posterior, which itself is of independent interest. We use this exact
posterior to analyze the Bayes regret of HierTS in Gaussian bandits. Our
analysis reflects the structure of the problem, that the regret decreases with
the prior width, and also shows that hierarchies reduce the regret by
non-constant factors in the number of actions. We confirm these theoretical
findings empirically, in both synthetic and real-world experiments.
- Abstract(参考訳): 行動の報酬は、しばしば相関する。
これらの相関の形式は、推奨製品とそのカテゴリに対するユーザの好みなど、前もって複雑で未知のものである可能性がある。
統計的効率を最大化するためには,これらの相関を学習に活用することが重要である。
我々は、平均アクション報酬の相関が潜在変数を持つ階層的ベイズモデルによって表されるこの問題のバンディット変法を定式化する。
階層構造は複数の層を持つことができるので、それを深い層と呼ぶ。
本稿では,この問題に対する階層的トンプソンサンプリングアルゴリズム(hierts)を提案し,ガウス階層に対して効率的に実装する方法を示す。
効率的な実装は、それ自体が独立した関心を持つ後部の、新しい正確な階層的な表現のために可能である。
我々はこの正確な後部をガウスの盗賊のHierTSを後悔するベイズの分析に用いている。
本分析は,先行する幅で後悔が減少する問題の構造を反映し,また行動数における非定数要因による後悔が階層的に減少することを示す。
これらの理論的な発見を総合実験と実世界実験の両方で実証的に確認する。
関連論文リスト
- Reducing the dimensionality and granularity in hierarchical categorical variables [2.089191490381739]
階層型分類変数の縮小表現を求める手法を提案する。
エンティティの埋め込みが階層的な環境でどのように適用できるかを示す。
提案手法を実際のデータセットに適用し,階層構造が元の階層構造よりも改善されていることを確認する。
論文 参考訳(メタデータ) (2024-03-06T11:09:36Z) - Discouraging posterior collapse in hierarchical Variational Autoencoders
using context [19.47169312443202]
トップダウン階層のVAEは、深い潜伏構造を効果的に学習し、後部崩壊のような問題を回避できるという意見が一致している。
ここでは,必ずしもそうではないことを示すとともに,後方崩壊の問題も残る。
具体的には、離散コサイン変換を用いて最後の潜伏変数を得る。
論文 参考訳(メタデータ) (2023-02-20T13:44:47Z) - Multi-Task Off-Policy Learning from Bandit Feedback [54.96011624223482]
本稿では,階層型非政治最適化アルゴリズム (HierOPO) を提案する。
学習方針の準最適性にタスクごとのバウンダリを証明し、階層モデルを使用しないよりも明確な改善を示す。
我々の理論的および実証的な結果は、各タスクを個別に解くよりも、階層を使うことの明確な利点を示している。
論文 参考訳(メタデータ) (2022-12-09T08:26:27Z) - Dual Instrumental Method for Confounded Kernelized Bandits [0.0]
文脈的帯域幅問題は、様々な分野の幅広い応用のフレームワークである。
本稿では,騒音がコンテキストと報酬の両方に影響を与える潜在的共同設立者となる,包括的バンドイット問題を提案する。
双対楽器変数回帰は真の報酬関数を正しく識別できることを示す。
論文 参考訳(メタデータ) (2022-09-07T15:25:57Z) - Generalizing Hierarchical Bayesian Bandits [14.986031916712108]
文脈的盗賊は、不確実性の下で行動するためのオンライン学習の一般的かつ実践的なフレームワークである。
本研究では,2段階のグラフィカルモデルを用いて,そのような相関関係を捉えるための一般的なフレームワークを提案する。
本稿では,この構造を用いて効率的に探索し,ベイズを後悔させるトンプソンサンプリングアルゴリズムG-HierTSを提案する。
論文 参考訳(メタデータ) (2022-05-30T14:17:56Z) - Hierarchical Bayesian Bandits [51.67132887113412]
このクラスでは,任意の問題に適用可能な自然階層型トンプソンサンプリングアルゴリズム (hierTS) を解析する。
私たちの後悔の限界は、タスクが順次あるいは並列に解決された場合を含む、そのような問題の多くの事例に当てはまる。
実験により、階層構造はタスク間の知識共有に役立つことが示された。
論文 参考訳(メタデータ) (2021-11-12T20:33:09Z) - Deconfounding Scores: Feature Representations for Causal Effect
Estimation with Weak Overlap [140.98628848491146]
推定対象の偏りを伴わずに高い重なりを生じさせる,デコンファウンディングスコアを導入する。
分離スコアは観測データで識別可能なゼロ共分散条件を満たすことを示す。
特に,この手法が標準正規化の魅力的な代替となることを示す。
論文 参考訳(メタデータ) (2021-04-12T18:50:11Z) - Causal Expectation-Maximisation [70.45873402967297]
ポリツリーグラフを特徴とするモデルにおいても因果推論はNPハードであることを示す。
我々は因果EMアルゴリズムを導入し、分類的表現変数のデータから潜伏変数の不確かさを再構築する。
我々は、反事実境界が構造方程式の知識なしにしばしば計算できるというトレンドのアイデアには、目立たずの制限があるように思える。
論文 参考訳(メタデータ) (2020-11-04T10:25:13Z) - Gaussian MRF Covariance Modeling for Efficient Black-Box Adversarial
Attacks [86.88061841975482]
我々は,ゼロオーダーのオラクルにのみアクセス可能なブラックボックス設定において,逆例を生成する問題について検討する。
我々はこの設定を用いて、FGSM(Fast Gradient Sign Method)のブラックボックス版と同様に、高速な1ステップの敵攻撃を見つける。
提案手法はクエリを少なくし,現在の技術よりも攻撃成功率が高いことを示す。
論文 参考訳(メタデータ) (2020-10-08T18:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。