論文の概要: Hierarchical Bayesian Bandits
- arxiv url: http://arxiv.org/abs/2111.06929v1
- Date: Fri, 12 Nov 2021 20:33:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-19 05:21:50.827378
- Title: Hierarchical Bayesian Bandits
- Title(参考訳): 階層的ベイズバンド
- Authors: Joey Hong and Branislav Kveton and Manzil Zaheer and Mohammad
Ghavamzadeh
- Abstract要約: このクラスでは,任意の問題に適用可能な自然階層型トンプソンサンプリングアルゴリズム (hierTS) を解析する。
私たちの後悔の限界は、タスクが順次あるいは並列に解決された場合を含む、そのような問題の多くの事例に当てはまる。
実験により、階層構造はタスク間の知識共有に役立つことが示された。
- 参考スコア(独自算出の注目度): 51.67132887113412
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Meta-, multi-task, and federated learning can be all viewed as solving
similar tasks, drawn from an unknown distribution that reflects task
similarities. In this work, we provide a unified view of all these problems, as
learning to act in a hierarchical Bayesian bandit. We analyze a natural
hierarchical Thompson sampling algorithm (hierTS) that can be applied to any
problem in this class. Our regret bounds hold under many instances of such
problems, including when the tasks are solved sequentially or in parallel; and
capture the structure of the problems, such that the regret decreases with the
width of the task prior. Our proofs rely on novel total variance
decompositions, which can be applied to other graphical model structures.
Finally, our theory is complemented by experiments, which show that the
hierarchical structure helps with knowledge sharing among the tasks. This
confirms that hierarchical Bayesian bandits are a universal and
statistically-efficient tool for learning to act with similar bandit tasks.
- Abstract(参考訳): メタ、マルチタスク、フェデレーション学習はすべて、タスクの類似性を反映した未知の分布から引き出された、類似したタスクの解決と見なすことができる。
本研究は,階層的ベイズ的バンディットで行動する学習として,これらの問題をすべて統一的に捉えることを目的とする。
我々は,このクラスにおける任意の問題に適用可能な自然階層型トンプソンサンプリングアルゴリズム(hierts)を分析した。
我々の後悔の限界は、タスクが順次あるいは並列に解決されたときなど、そのような問題の多くの事例に当てはまり、過去のタスクの幅とともに後悔が減少する問題の構造を捉えます。
我々の証明は、他のグラフィカルモデル構造に適用可能な新しい全分散分解に依存する。
最後に、我々の理論は、階層構造がタスク間の知識共有に役立つことを示す実験によって補完される。
これは階層的ベイズ的バンディットが、同様のバンディットタスクを学習するための普遍的かつ統計的に効率的なツールであることを保証する。
関連論文リスト
- Multi-Task Off-Policy Learning from Bandit Feedback [54.96011624223482]
本稿では,階層型非政治最適化アルゴリズム (HierOPO) を提案する。
学習方針の準最適性にタスクごとのバウンダリを証明し、階層モデルを使用しないよりも明確な改善を示す。
我々の理論的および実証的な結果は、各タスクを個別に解くよりも、階層を使うことの明確な利点を示している。
論文 参考訳(メタデータ) (2022-12-09T08:26:27Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Deep Hierarchy in Bandits [51.22833900944146]
行動の報酬は、しばしば相関する。
統計的効率を最大化するためには,これらの相関を学習に活用することが重要である。
平均作用報酬の相関が階層的ベイズモデルで表されるこの問題のバンディット変法を定式化する。
論文 参考訳(メタデータ) (2022-02-03T08:15:53Z) - Metadata-based Multi-Task Bandits with Bayesian Hierarchical Models [7.458639397686894]
効果的に探索する方法は、多腕バンディットにおける中心的な問題である。
メタデータに基づくマルチタスクバンディット問題を導入する。
ベイズ階層モデルのレンズを通してタスク関係を捉えることを提案する。
論文 参考訳(メタデータ) (2021-08-13T22:45:05Z) - Learning Task Decomposition with Ordered Memory Policy Network [73.3813423684999]
OMPN(Ordered Memory Policy Network)を提案し、デモから学習することでサブタスク階層を発見する。
ompnは部分的に観測可能な環境に適用でき、高いタスク分解性能を達成できる。
私たちの視覚化は、サブタスク階層がモデルに出現できることを確認します。
論文 参考訳(メタデータ) (2021-03-19T18:13:35Z) - Anatomy of Catastrophic Forgetting: Hidden Representations and Task
Semantics [24.57617154267565]
ニューラルネットワークモデルにおいて,忘れることが表現に与える影響について検討する。
深い層が忘れる原因であることに気付きました。
また,CIFAR-100をベースとした,現実的な入力分布シフトを近似するタスクも導入する。
論文 参考訳(メタデータ) (2020-07-14T23:31:14Z) - Hierarchical Reinforcement Learning as a Model of Human Task
Interleaving [60.95424607008241]
我々は、強化学習によって駆動される監督制御の階層モデルを開発する。
このモデルは、タスクインターリービングの既知の経験的効果を再現する。
その結果、階層的RLがタスクインターリービングのもっともらしいモデルとして支持された。
論文 参考訳(メタデータ) (2020-01-04T17:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。