論文の概要: Bias-Robust Bayesian Optimization via Dueling Bandit
- arxiv url: http://arxiv.org/abs/2105.11802v1
- Date: Tue, 25 May 2021 10:08:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-26 14:27:39.447541
- Title: Bias-Robust Bayesian Optimization via Dueling Bandit
- Title(参考訳): Duling Banditによるバイアス・ロバストベイズ最適化
- Authors: Johannes Kirschner and Andreas Krause
- Abstract要約: ベイジアン最適化は、観測が逆偏りとなるような環境において考慮する。
情報指向サンプリング(IDS)に基づくダリングバンディットの新しい手法を提案する。
これにより、累積的後悔保証を伴う帯域幅の並列化のための、最初の効率的なカーネル化アルゴリズムが得られる。
- 参考スコア(独自算出の注目度): 57.82422045437126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider Bayesian optimization in settings where observations can be
adversarially biased, for example by an uncontrolled hidden confounder. Our
first contribution is a reduction of the confounded setting to the dueling
bandit model. Then we propose a novel approach for dueling bandits based on
information-directed sampling (IDS). Thereby, we obtain the first efficient
kernelized algorithm for dueling bandits that comes with cumulative regret
guarantees. Our analysis further generalizes a previously proposed
semi-parametric linear bandit model to non-linear reward functions, and
uncovers interesting links to doubly-robust estimation.
- Abstract(参考訳): ベイジアン最適化は、例えば制御されていない隠された共同設立者によって観測が逆偏見されるような設定で検討する。
私たちの最初の貢献は、デュエルバンディットモデルに対する確立された設定の削減である。
次に,情報指向サンプリング(ids)に基づくデュエルバンディットに対する新しいアプローチを提案する。
これにより、累積後悔保証を伴うデュエルバンディットに対する最初の効率的なカーネル化アルゴリズムを得る。
本解析は,提案する半パラメトリック線形バンディットモデルを非線形報酬関数にさらに一般化し,二重ロバスト推定への興味深いリンクを明らかにする。
関連論文リスト
- Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - Bayesian Bandit Algorithms with Approximate Inference in Stochastic Linear Bandits [21.09844002135398]
我々は,線形トンプソンサンプリング (LinTS) とベイズ的上部信頼境界の拡張 (LinBUCB) が,元の後悔の上界の速度を保てることを示す。
また、LinBUCBはLinTSの後悔率を$tildeO(d3/2sqrtT)$から$tildeO(dsqrtT)$に短縮することを示した。
論文 参考訳(メタデータ) (2024-06-20T07:45:38Z) - Feel-Good Thompson Sampling for Contextual Dueling Bandits [49.450050682705026]
FGTS.CDBという名前のトンプソンサンプリングアルゴリズムを提案する。
われわれのアルゴリズムの核心は、デュエルバンディットに適した新しいFeel-Good探索用語である。
我々のアルゴリズムは最小限の誤差、すなわち $tildemathcalO(dsqrt T)$, $d$ はモデル次元、$T$ は時間水平線である。
論文 参考訳(メタデータ) (2024-04-09T04:45:18Z) - Incentivizing Exploration with Linear Contexts and Combinatorial Actions [9.15749739027059]
インセンティブ付きバンディット探索では、腕の選択は推奨され、ベイズ的なインセンティブと互換性が求められる。
最近の研究は、十分な初期サンプルを収集した後、人気のあるトンプソンサンプリングアルゴリズムがインセンティブ互換になる、という一定の独立性の仮定の下で示されている。
線形包帯に対してこの結果の類似性を与え、そこでは前者の独立性を自然凸条件に置き換える。
論文 参考訳(メタデータ) (2023-06-03T03:30:42Z) - Contextual bandits with concave rewards, and an application to fair
ranking [108.48223948875685]
CBCR (Contextual Bandits with Concave Rewards) に対する反省点のある最初のアルゴリズムを提案する。
我々は,スカラー・リワード問題に対するCBCRの後悔から,新たな縮小を導出した。
推薦の公正さによって動機づけられたCBCRの特別事例として,ランク付けと公正を意識した目的について述べる。
論文 参考訳(メタデータ) (2022-10-18T16:11:55Z) - Langevin Monte Carlo for Contextual Bandits [72.00524614312002]
Langevin Monte Carlo Thompson Sampling (LMC-TS) が提案されている。
提案アルゴリズムは,文脈的帯域幅の特別な場合において,最高のトンプソンサンプリングアルゴリズムと同じサブ線形残差を達成できることを示す。
論文 参考訳(メタデータ) (2022-06-22T17:58:23Z) - Versatile Dueling Bandits: Best-of-both-World Analyses for Online
Learning from Preferences [28.79598714109439]
両環境および敵環境における$K$武器のデュエルバンディットの問題について検討する。
まず,マルチアームのバンディットに対して,任意の(一般的な)デュエル・バンドレットから新たなリダクションを提案する。
提案アルゴリズムは,コンドルチェット・ウィンナーベンチマークに対して最適な$O(sum_i = 1K fraclog TDelta_i)$ regret boundを達成した最初のアルゴリズムでもある。
論文 参考訳(メタデータ) (2022-02-14T13:37:23Z) - Uncertainty-Aware Abstractive Summarization [3.1423034006764965]
ベイズ深層学習に基づく要約手法を提案する。
BARTとPEGの変動等価性は、複数のベンチマークデータセットで決定論的に比較した場合よりも優れていることを示す。
信頼性の高い不確実性尺度を持つことで、高い不確実性の生成された要約をフィルタリングすることにより、エンドユーザのエクスペリエンスを向上させることができる。
論文 参考訳(メタデータ) (2021-05-21T06:36:40Z) - Optimistic Policy Optimization with Bandit Feedback [70.75568142146493]
我々は,事前の報奨を後悔する$tilde O(sqrtS2 A H4 K)を定め,楽観的な信頼領域ポリシー最適化(TRPO)アルゴリズムを提案する。
我々の知る限り、この2つの結果は、未知の遷移と帯域幅フィードバックを持つポリシー最適化アルゴリズムにおいて得られた最初のサブ線形後悔境界である。
論文 参考訳(メタデータ) (2020-02-19T15:41:18Z) - Bandit algorithms to emulate human decision making using probabilistic
distortions [20.422725678982726]
報奨分布に歪んだ確率を持つ2つの多重武装バンディット問題を定式化する。
以上のような後悔の最小化の問題と、マルチアームバンディットのための最高の腕識別フレームワークについて考察する。
論文 参考訳(メタデータ) (2016-11-30T17:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。