論文の概要: Incentivizing Combinatorial Bandit Exploration
- arxiv url: http://arxiv.org/abs/2206.00494v1
- Date: Wed, 1 Jun 2022 13:46:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-02 12:44:10.555206
- Title: Incentivizing Combinatorial Bandit Exploration
- Title(参考訳): Combinatorial Bandit Explorationのインセンティブ
- Authors: Xinyan Hu, Dung Daniel Ngo, Aleksandrs Slivkins, Zhiwei Steven Wu
- Abstract要約: 自己関心のあるユーザに対してレコメンデーションシステムでアクションを推奨するバンディットアルゴリズムを考える。
ユーザーは他のアクションを自由に選択でき、アルゴリズムの推奨に従うためにインセンティブを得る必要がある。
ユーザは悪用を好むが、アルゴリズムは、前のユーザから収集した情報を活用することで、探索にインセンティブを与えることができる。
- 参考スコア(独自算出の注目度): 87.08827496301839
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Consider a bandit algorithm that recommends actions to self-interested users
in a recommendation system. The users are free to choose other actions and need
to be incentivized to follow the algorithm's recommendations. While the users
prefer to exploit, the algorithm can incentivize them to explore by leveraging
the information collected from the previous users. All published work on this
problem, known as incentivized exploration, focuses on small, unstructured
action sets and mainly targets the case when the users' beliefs are independent
across actions. However, realistic exploration problems often feature large,
structured action sets and highly correlated beliefs. We focus on a
paradigmatic exploration problem with structure: combinatorial semi-bandits. We
prove that Thompson Sampling, when applied to combinatorial semi-bandits, is
incentive-compatible when initialized with a sufficient number of samples of
each arm (where this number is determined in advance by the Bayesian prior).
Moreover, we design incentive-compatible algorithms for collecting the initial
samples.
- Abstract(参考訳): 自己関心のあるユーザに対してレコメンデーションシステムでアクションを推奨するバンディットアルゴリズムを考える。
ユーザは他のアクションを自由に選択でき、アルゴリズムの推奨に従うインセンティブを与えられる必要がある。
ユーザは悪用を好むが、アルゴリズムは以前のユーザから収集した情報を活用することで探索にインセンティブを与えることができる。
インセンティブド・エクスプロレーション(incentivized exploration)として知られるこの問題に関する公開作業はすべて、小さな非構造化アクションセットに焦点を当てており、主に、ユーザの信念がアクション間で独立している場合を対象としている。
しかし、現実的な探索問題は、しばしば大きく構造化された行動セットと高度に相関した信念を特徴付ける。
構造をもつパラダイム探索問題である組合せ半帯域に焦点をあてる。
組み合わせ半帯域に適用した場合、トンプソンサンプリングは各アームの十分な数のサンプルを初期化する際にインセンティブ互換であることが証明される(ベイジアン事前によりこの数が決定される)。
さらに,初期サンプル収集のためのインセンティブ互換アルゴリズムも設計する。
関連論文リスト
- Incentivizing Exploration with Linear Contexts and Combinatorial Actions [9.15749739027059]
インセンティブ付きバンディット探索では、腕の選択は推奨され、ベイズ的なインセンティブと互換性が求められる。
最近の研究は、十分な初期サンプルを収集した後、人気のあるトンプソンサンプリングアルゴリズムがインセンティブ互換になる、という一定の独立性の仮定の下で示されている。
線形包帯に対してこの結果の類似性を与え、そこでは前者の独立性を自然凸条件に置き換える。
論文 参考訳(メタデータ) (2023-06-03T03:30:42Z) - An Empirical Evaluation of Federated Contextual Bandit Algorithms [27.275089644378376]
フェデレートされた学習は、ユーザが関心のあるアプリケーションと対話するときに生成される暗黙の信号を使って行うことができる。
我々は,フェデレートされた設定のための集中的な設定から,顕著な文脈的帯域幅アルゴリズムの変種を開発する。
本実験は, 探索・探索のトレードオフのバランスをとる上で, シンプルで一般的なソフトマックスの驚くべき有効性を明らかにした。
論文 参考訳(メタデータ) (2023-03-17T19:22:30Z) - Bandit Social Learning: Exploration under Myopic Behavior [58.75758600464338]
オンラインプラットフォーム上でのレビューによって動機付けられた社会学習のダイナミクスについて検討する。
エージェントはまとめて単純なマルチアームのバンディットプロトコルに従うが、各エージェントは探索を伴わずにミオプティカルに振る舞う。
このような振る舞いに対して,スターク学習の失敗を導出し,好意的な結果を提供する。
論文 参考訳(メタデータ) (2023-02-15T01:57:57Z) - Bayesian decision-making under misspecified priors with applications to
meta-learning [64.38020203019013]
トンプソンサンプリングやその他のシーケンシャルな意思決定アルゴリズムは、文脈的包帯における探索と探索のトレードオフに取り組むための一般的なアプローチである。
性能は不特定な事前条件で優雅に低下することを示す。
論文 参考訳(メタデータ) (2021-07-03T23:17:26Z) - Efficient Pure Exploration for Combinatorial Bandits with Semi-Bandit
Feedback [51.21673420940346]
コンビナーシャルバンディットはマルチアームバンディットを一般化し、エージェントが腕のセットを選択し、選択したセットに含まれる各腕の騒々しい報酬を観察します。
我々は, 最善の腕を一定の信頼度で識別する純粋爆発問題と, 応答集合の構造が動作集合の1つと異なるような, より一般的な設定に注目する。
有限多面体に対するプロジェクションフリーオンライン学習アルゴリズムに基づいて、凸的に最適であり、競争力のある経験的性能を持つ最初の計算効率の良いアルゴリズムである。
論文 参考訳(メタデータ) (2021-01-21T10:35:09Z) - Combinatorial Pure Exploration with Full-bandit Feedback and Beyond:
Solving Combinatorial Optimization under Uncertainty with Limited Observation [70.41056265629815]
最適化アルゴリズムを開発する際、エッジウェイトなどのパラメータが入力として正確に知られていることが一般的である。
本稿では、最近、限られたフィードバックを伴う純粋探索問題に対する手法について概説する。
論文 参考訳(メタデータ) (2020-12-31T12:40:52Z) - Adaptive Algorithms for Multi-armed Bandit with Composite and Anonymous
Feedback [32.62857394584907]
複合および匿名フィードバックによるマルチアームバンディット(MAB)問題を研究する。
本稿では,逆の場合と非逆の場合の適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-13T12:25:41Z) - The Price of Incentivizing Exploration: A Characterization via Thompson
Sampling and Sample Complexity [83.81297078039836]
インセンティブ付き探索(Incentivized Exploring)は、武器の選択を自給自足エージェントによって制御するマルチアーム・バンディットのバージョンである。
我々は、インセンティブの価格に焦点を合わせ、インセンティブの適合性のために、広く解釈された、パフォーマンスの喪失が引き起こされる。
論文 参考訳(メタデータ) (2020-02-03T04:58:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。