論文の概要: Metadata-based Multi-Task Bandits with Bayesian Hierarchical Models
- arxiv url: http://arxiv.org/abs/2108.06422v1
- Date: Fri, 13 Aug 2021 22:45:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-17 15:26:26.854623
- Title: Metadata-based Multi-Task Bandits with Bayesian Hierarchical Models
- Title(参考訳): ベイズ階層モデルを用いたメタデータに基づくマルチタスクバンディット
- Authors: Runzhe Wan, Lin Ge, Rui Song
- Abstract要約: 効果的に探索する方法は、多腕バンディットにおける中心的な問題である。
メタデータに基づくマルチタスクバンディット問題を導入する。
ベイズ階層モデルのレンズを通してタスク関係を捉えることを提案する。
- 参考スコア(独自算出の注目度): 7.458639397686894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How to explore efficiently is a central problem in multi-armed bandits. In
this paper, we introduce the metadata-based multi-task bandit problem, where
the agent needs to solve a large number of related multi-armed bandit tasks and
can leverage some task-specific features (i.e., metadata) to share knowledge
across tasks. As a general framework, we propose to capture task relations
through the lens of Bayesian hierarchical models, upon which a Thompson
sampling algorithm is designed to efficiently learn task relations, share
information, and minimize the cumulative regrets. Two concrete examples for
Gaussian bandits and Bernoulli bandits are carefully analyzed. The Bayes regret
for Gaussian bandits clearly demonstrates the benefits of information sharing
with our algorithm. The proposed method is further supported by extensive
experiments.
- Abstract(参考訳): 効果的に探索する方法は、多腕バンディットの中心的な問題である。
本稿では,メタデータに基づくマルチタスク・バンディット問題について紹介する。そこでは,エージェントが多数の関連するマルチアーム・バンディットタスクを解決し,タスク間の知識を共有するためにタスク固有の機能(メタデータ)を活用する。
本稿では,タスク関係を効率的に学習し,情報を共有し,累積的後悔を最小限に抑えるために,トンプソンサンプリングアルゴリズムを設計したベイズ階層モデルのレンズを通してタスク関係を捉えることを提案する。
ガウシアン・バンディットとベルヌーイ・バンディットの2つの具体例を慎重に分析した。
the bayes regret for gaussian banditsは、アルゴリズムと情報共有の利点を明確に示しています。
提案手法は広範な実験によってさらに支持されている。
関連論文リスト
- Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - Forced Exploration in Bandit Problems [12.13966146283641]
マルチアームバンディット(MAB)は古典的なシーケンシャルな決定問題である。
本稿では,報酬分布に関する情報を使わずに実装可能なマルチアームバンディットアルゴリズムを設計することを目的とする。
論文 参考訳(メタデータ) (2023-12-12T14:00:29Z) - Multi-task Representation Learning for Pure Exploration in Bilinear
Bandits [13.773838574776338]
バイリニア・バンディットにおける純粋探索問題に対するマルチタスク表現学習について検討した。
バイリニア・バンディットでは、アクションは2つの異なる実体タイプから一対の腕の形を取る。
論文 参考訳(メタデータ) (2023-11-01T06:30:45Z) - Thompson Sampling with Virtual Helping Agents [0.0]
我々は、オンラインのシーケンシャルな意思決定の問題、すなわち、現在の知識を活用して即時パフォーマンスを最大化し、新しい情報を探索して長期的な利益を得るというトレードオフに対処する。
本稿では,マルチアームバンディット問題に対する2つのアルゴリズムを提案し,累積的後悔に関する理論的境界を提供する。
論文 参考訳(メタデータ) (2022-09-16T23:34:44Z) - Incentivizing Combinatorial Bandit Exploration [87.08827496301839]
自己関心のあるユーザに対してレコメンデーションシステムでアクションを推奨するバンディットアルゴリズムを考える。
ユーザーは他のアクションを自由に選択でき、アルゴリズムの推奨に従うためにインセンティブを得る必要がある。
ユーザは悪用を好むが、アルゴリズムは、前のユーザから収集した情報を活用することで、探索にインセンティブを与えることができる。
論文 参考訳(メタデータ) (2022-06-01T13:46:25Z) - Thompson Sampling on Asymmetric $\alpha$-Stable Bandits [0.0]
多腕バンディット問題は報酬分布を変化させることで提案した解を最適化することができる。
トンプソンサンプリングは、多武装バンディット問題を解決する一般的な方法である。
論文 参考訳(メタデータ) (2022-03-19T01:55:08Z) - Hierarchical Bayesian Bandits [51.67132887113412]
このクラスでは,任意の問題に適用可能な自然階層型トンプソンサンプリングアルゴリズム (hierTS) を解析する。
私たちの後悔の限界は、タスクが順次あるいは並列に解決された場合を含む、そのような問題の多くの事例に当てはまる。
実験により、階層構造はタスク間の知識共有に役立つことが示された。
論文 参考訳(メタデータ) (2021-11-12T20:33:09Z) - MetaKernel: Learning Variational Random Features with Limited Labels [120.90737681252594]
少数の注釈付きサンプルから学習し、新しいタスクでうまく一般化できるという根本的かつ困難な問題に、少数のショットラーニングが対処します。
マルチショット学習のためのランダムなフーリエ機能を備えたメタラーニングカーネルをMeta Kernelと呼びます。
論文 参考訳(メタデータ) (2021-05-08T21:24:09Z) - Efficient Pure Exploration for Combinatorial Bandits with Semi-Bandit
Feedback [51.21673420940346]
コンビナーシャルバンディットはマルチアームバンディットを一般化し、エージェントが腕のセットを選択し、選択したセットに含まれる各腕の騒々しい報酬を観察します。
我々は, 最善の腕を一定の信頼度で識別する純粋爆発問題と, 応答集合の構造が動作集合の1つと異なるような, より一般的な設定に注目する。
有限多面体に対するプロジェクションフリーオンライン学習アルゴリズムに基づいて、凸的に最適であり、競争力のある経験的性能を持つ最初の計算効率の良いアルゴリズムである。
論文 参考訳(メタデータ) (2021-01-21T10:35:09Z) - Adaptive Task Sampling for Meta-Learning [79.61146834134459]
数ショットの分類のためのメタラーニングの鍵となるアイデアは、テスト時に直面した数ショットの状況を模倣することである。
一般化性能を向上させるための適応型タスクサンプリング手法を提案する。
論文 参考訳(メタデータ) (2020-07-17T03:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。