Fugu-MT 論文翻訳(概要): Incentivizing Exploration with Linear Contexts and Combinatorial Actions

論文の概要: Incentivizing Exploration with Linear Contexts and Combinatorial Actions

arxiv url: http://arxiv.org/abs/2306.01990v3
Date: Tue, 24 Sep 2024 16:02:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-09 15:02:22.848104
Title: Incentivizing Exploration with Linear Contexts and Combinatorial Actions
Title（参考訳）: 線形文脈による探索のインセンティブと組合せ行動
Authors: Mark Sellke,
Abstract要約: インセンティブ付きバンディット探索では、腕の選択は推奨され、ベイズ的なインセンティブと互換性が求められる。最近の研究は、十分な初期サンプルを収集した後、人気のあるトンプソンサンプリングアルゴリズムがインセンティブ互換になる、という一定の独立性の仮定の下で示されている。線形包帯に対してこの結果の類似性を与え、そこでは前者の独立性を自然凸条件に置き換える。
参考スコア（独自算出の注目度）: 9.15749739027059
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We advance the study of incentivized bandit exploration, in which arm choices are viewed as recommendations and are required to be Bayesian incentive compatible. Recent work has shown under certain independence assumptions that after collecting enough initial samples, the popular Thompson sampling algorithm becomes incentive compatible. We give an analog of this result for linear bandits, where the independence of the prior is replaced by a natural convexity condition. This opens up the possibility of efficient and regret-optimal incentivized exploration in high-dimensional action spaces. In the semibandit model, we also improve the sample complexity for the pre-Thompson sampling phase of initial data collection.
Abstract（参考訳）: 我々は、腕の選択を推奨とみなし、ベイズ的インセンティブと互換性を持たなければならない、インセンティブ付きバンディット探索の研究を前進させる。最近の研究は、十分な初期サンプルを収集した後、人気のあるトンプソンサンプリングアルゴリズムがインセンティブ互換になる、という一定の独立性の仮定の下で示されている。線形包帯に対してこの結果の類似性を与え、そこでは前者の独立性を自然凸条件に置き換える。これにより、高次元の行動空間における効率的かつ後悔に満ちたインセンティブ付き探索の可能性が開ける。半帯域モデルでは、初期データ収集のトンプソン前サンプリングフェーズにおけるサンプルの複雑さも改善する。

関連論文リスト

Adaptive Data Augmentation for Thompson Sampling [4.441866681085518]
線形文脈的包帯において、その目的は累積報酬を最大化する行動を選択することである。トンプソンサンプリングは経験的にうまく機能するが、最適の後悔境界は達成しない。本稿では,線形文脈帯域に対するほぼ最小のトンプソンサンプリングを提案する。
論文参考訳（メタデータ） (2025-06-17T12:57:33Z)
Geometry Meets Incentives: Sample-Efficient Incentivized Exploration with Linear Contexts [7.751607497318266]
プリンシパルは、自己関心のあるエージェントのシーケンスと対話することで、時間とともに探索し、学習することを目的としている。この問題に対するインセンティブ互換アルゴリズムの主な課題は、適度な量の初期データを集めることである。これらの探索障壁は、利用可能な一連の行動において、穏やかな幾何学的条件下で消失することを示す。
論文参考訳（メタデータ） (2025-06-02T13:50:00Z)
Representative Action Selection for Large Action Space Meta-Bandits [49.386906771833274]
バンドイットの族が共有する大きなアクション空間からサブセットを選択する問題について検討する。我々は、同様の行動がガウス過程によってモデル化された関連する報酬を持つ傾向があると仮定する。代表サブセットを選択するための簡単なepsilon-netアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-05-23T18:08:57Z)
Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文参考訳（メタデータ） (2024-07-24T09:23:22Z)
Generative Slate Recommendation with Reinforcement Learning [49.75985313698214]
強化学習アルゴリズムは、レコメンデータシステムのユーザエンゲージメントを最適化するために使用することができる。しかし、RLアプローチはスレートレコメンデーションシナリオでは難解である。この設定では、アクションはアイテムの組み合わせを含むことができるスレートに対応する。本研究では,変分オートエンコーダによって学習された連続低次元ラテント空間におけるスレートの符号化を提案する。我々は、(i)以前の作業で要求される仮定を緩和し、(ii)完全なスレートをモデル化することで、アクション選択の品質を向上させることができる。
論文参考訳（メタデータ） (2023-01-20T15:28:09Z)
Langevin Monte Carlo for Contextual Bandits [72.00524614312002]
Langevin Monte Carlo Thompson Sampling (LMC-TS) が提案されている。提案アルゴリズムは,文脈的帯域幅の特別な場合において,最高のトンプソンサンプリングアルゴリズムと同じサブ線形残差を達成できることを示す。
論文参考訳（メタデータ） (2022-06-22T17:58:23Z)
Incentivizing Combinatorial Bandit Exploration [87.08827496301839]
自己関心のあるユーザに対してレコメンデーションシステムでアクションを推奨するバンディットアルゴリズムを考える。ユーザーは他のアクションを自由に選択でき、アルゴリズムの推奨に従うためにインセンティブを得る必要がある。ユーザは悪用を好むが、アルゴリズムは、前のユーザから収集した情報を活用することで、探索にインセンティブを与えることができる。
論文参考訳（メタデータ） (2022-06-01T13:46:25Z)
Bias-Robust Bayesian Optimization via Dueling Bandit [57.82422045437126]
ベイジアン最適化は、観測が逆偏りとなるような環境において考慮する。情報指向サンプリング(IDS)に基づくダリングバンディットの新しい手法を提案する。これにより、累積的後悔保証を伴う帯域幅の並列化のための、最初の効率的なカーネル化アルゴリズムが得られる。
論文参考訳（メタデータ） (2021-05-25T10:08:41Z)
Doubly-Adaptive Thompson Sampling for Multi-Armed and Contextual Bandits [28.504921333436833]
本稿では,トンプソンサンプリングに基づくアルゴリズムの変種について,両腕の真の平均報酬に対する2倍頑健な推定器の項を適応的に再検討する。提案アルゴリズムは, 半合成実験における最適(最小)後悔率とその経験的評価に適合する。このアプローチは、適応データ収集とは別に、より多くのバイアス源が存在するコンテキスト的包帯に拡張する。
論文参考訳（メタデータ） (2021-02-25T22:29:25Z)
Output-Weighted Sampling for Multi-Armed Bandits with Extreme Payoffs [11.1546439770774]
極度のペイオフを伴うバンディット問題におけるオンライン意思決定のための新しいタイプの獲得機能を提示する。我々は,最も関連性が高いと考えられる盗賊を探索する新しいタイプの上位信頼境界(UCB)取得関数を定式化する。
論文参考訳（メタデータ） (2021-02-19T18:36:03Z)
Analysis and Design of Thompson Sampling for Stochastic Partial Monitoring [91.22679787578438]
部分モニタリングのためのトンプソンサンプリングに基づく新しいアルゴリズムを提案する。局所可観測性を持つ問題の線形化変種に対して,新たなアルゴリズムが対数問題依存の擬似回帰$mathrmO(log T)$を達成することを証明した。
論文参考訳（メタデータ） (2020-06-17T05:48:33Z)
The Price of Incentivizing Exploration: A Characterization via Thompson Sampling and Sample Complexity [83.81297078039836]
インセンティブ付き探索(Incentivized Exploring)は、武器の選択を自給自足エージェントによって制御するマルチアーム・バンディットのバージョンである。我々は、インセンティブの価格に焦点を合わせ、インセンティブの適合性のために、広く解釈された、パフォーマンスの喪失が引き起こされる。
論文参考訳（メタデータ） (2020-02-03T04:58:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。