論文の概要: Versatile Dueling Bandits: Best-of-both-World Analyses for Online
Learning from Preferences
- arxiv url: http://arxiv.org/abs/2202.06694v1
- Date: Mon, 14 Feb 2022 13:37:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 21:56:14.623634
- Title: Versatile Dueling Bandits: Best-of-both-World Analyses for Online
Learning from Preferences
- Title(参考訳): Versatile Dueling Bandits: オンライン学習のためのベスト・オブ・ボトム・ワールド分析
- Authors: Aadirupa Saha and Pierre Gaillard
- Abstract要約: 両環境および敵環境における$K$武器のデュエルバンディットの問題について検討する。
まず,マルチアームのバンディットに対して,任意の(一般的な)デュエル・バンドレットから新たなリダクションを提案する。
提案アルゴリズムは,コンドルチェット・ウィンナーベンチマークに対して最適な$O(sum_i = 1K fraclog TDelta_i)$ regret boundを達成した最初のアルゴリズムでもある。
- 参考スコア(独自算出の注目度): 28.79598714109439
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of $K$-armed dueling bandit for both stochastic and
adversarial environments, where the goal of the learner is to aggregate
information through relative preferences of pair of decisions points queried in
an online sequential manner. We first propose a novel reduction from any
(general) dueling bandits to multi-armed bandits and despite the simplicity, it
allows us to improve many existing results in dueling bandits. In particular,
\emph{we give the first best-of-both world result for the dueling bandits
regret minimization problem} -- a unified framework that is guaranteed to
perform optimally for both stochastic and adversarial preferences
simultaneously. Moreover, our algorithm is also the first to achieve an optimal
$O(\sum_{i = 1}^K \frac{\log T}{\Delta_i})$ regret bound against the
Condorcet-winner benchmark, which scales optimally both in terms of the
arm-size $K$ and the instance-specific suboptimality gaps $\{\Delta_i\}_{i =
1}^K$. This resolves the long-standing problem of designing an instancewise
gap-dependent order optimal regret algorithm for dueling bandits (with matching
lower bounds up to small constant factors). We further justify the robustness
of our proposed algorithm by proving its optimal regret rate under
adversarially corrupted preferences -- this outperforms the existing
state-of-the-art corrupted dueling results by a large margin. In summary, we
believe our reduction idea will find a broader scope in solving a diverse class
of dueling bandits setting, which are otherwise studied separately from
multi-armed bandits with often more complex solutions and worse guarantees. The
efficacy of our proposed algorithms is empirically corroborated against the
existing dueling bandit methods.
- Abstract(参考訳): そこで,学習者の目的は,オンライン・シーケンシャルに問合せされた2つの決定点の相対的選好を通じて情報を集約することである。
まず,任意の(一般的な)デュエル・バンディットからマルチアーム・バンディットへの新たな還元を提案する。
特に、\emph{we give the first best-of-two world result for the dueling bandits regret minimization problem} - 確率的選好と敵対的選好の両方に対して最適な実行が保証される統一フレームワーク。
さらに、我々のアルゴリズムは、armサイズの$k$とインスタンス固有のサブオプティリティギャップである$\{\delta_i\}_{i = 1}^k$の両方において最適にスケールするcondorcet-winnerベンチマークに対して、最適な$o(\sum_{i = 1}^k \frac{\log t}{\delta_i})$を到達した最初のアルゴリズムである。
これにより、(最小の定数係数までの下限と一致する)デュエル・バンディットに対するインスタンスワイズギャップ依存順序最適後悔アルゴリズムを設計する長年の問題が解決される。
我々は、我々の提案したアルゴリズムの頑健さをさらに正当化し、その最適な後悔率を敵の腐敗した好みの下で証明する。
まとめると、私たちの還元アイデアは、より複雑なソリューションとより悪い保証を持つ多器バンディットとは別に研究される、多種多様なデュエルリングバンディット設定の解決において、より広い範囲を見出します。
提案アルゴリズムの有効性は,既存のデュエルバンディット法と実証的に相関している。
関連論文リスト
- Combinatorial Stochastic-Greedy Bandit [79.1700188160944]
我々は,選択した$n$のアームセットのジョイント報酬以外の余分な情報が観測されない場合に,マルチアームのバンディット問題に対する新規グリーディ・バンディット(SGB)アルゴリズムを提案する。
SGBは最適化された拡張型コミットアプローチを採用しており、ベースアームの大きなセットを持つシナリオ用に特別に設計されている。
論文 参考訳(メタデータ) (2023-12-13T11:08:25Z) - Variance-Aware Regret Bounds for Stochastic Contextual Dueling Bandits [53.281230333364505]
本稿では, 一般化線形モデル(GLM)から, デュエルアームのバイナリ比較を生成するコンテキストデュエルバンド問題について検討する。
本稿では,SupLinUCB型アルゴリズムを提案する。このアルゴリズムは,計算効率と分散を意識したリセットバウンド$tilde Obig(dsqrtsum_t=1Tsigma_t2 + dbig)$を提案する。
我々の後悔は、比較が決定論的である場合の直感的な期待と自然に一致し、アルゴリズムは$tilde O(d)$ regretにのみ悩まされる。
論文 参考訳(メタデータ) (2023-10-02T08:15:52Z) - Dueling Bandits: From Two-dueling to Multi-dueling [40.4378338001229]
エージェントが複数の選択肢を同時に比較し、最適な腕を選択することで後悔を最小限に抑える、一般的なマルチダウリングバンディット問題について検討する。
この設定は従来の二段バンディット問題を一般化し、複数の選択肢に対する主観的なフィードバックを含む現実世界の多くのアプリケーションを見つける。
論文 参考訳(メタデータ) (2022-11-16T22:00:54Z) - Dual Instrumental Method for Confounded Kernelized Bandits [0.0]
文脈的帯域幅問題は、様々な分野の幅広い応用のフレームワークである。
本稿では,騒音がコンテキストと報酬の両方に影響を与える潜在的共同設立者となる,包括的バンドイット問題を提案する。
双対楽器変数回帰は真の報酬関数を正しく識別できることを示す。
論文 参考訳(メタデータ) (2022-09-07T15:25:57Z) - Max-Min Grouped Bandits [48.62520520818357]
マルチアームバンディット問題であるmax-min grouped banditsを導入する。
ゴールは、最悪の腕が最高の平均報酬を持つグループを見つけることです。
この問題はレコメンデーションシステムのようなアプリケーションには関心がある。
論文 参考訳(メタデータ) (2021-11-17T01:59:15Z) - Bias-Robust Bayesian Optimization via Dueling Bandit [57.82422045437126]
ベイジアン最適化は、観測が逆偏りとなるような環境において考慮する。
情報指向サンプリング(IDS)に基づくダリングバンディットの新しい手法を提案する。
これにより、累積的後悔保証を伴う帯域幅の並列化のための、最初の効率的なカーネル化アルゴリズムが得られる。
論文 参考訳(メタデータ) (2021-05-25T10:08:41Z) - Efficient Pure Exploration for Combinatorial Bandits with Semi-Bandit
Feedback [51.21673420940346]
コンビナーシャルバンディットはマルチアームバンディットを一般化し、エージェントが腕のセットを選択し、選択したセットに含まれる各腕の騒々しい報酬を観察します。
我々は, 最善の腕を一定の信頼度で識別する純粋爆発問題と, 応答集合の構造が動作集合の1つと異なるような, より一般的な設定に注目する。
有限多面体に対するプロジェクションフリーオンライン学習アルゴリズムに基づいて、凸的に最適であり、競争力のある経験的性能を持つ最初の計算効率の良いアルゴリズムである。
論文 参考訳(メタデータ) (2021-01-21T10:35:09Z) - Upper Confidence Bounds for Combining Stochastic Bandits [52.10197476419621]
バンディットアルゴリズムを結合する簡単な手法を提案する。
私たちのアプローチは、個々のbanditアルゴリズムのそれぞれを、より高いレベルのn$-armed bandit問題のアームとして扱う"meta-ucb"手順に基づいています。
論文 参考訳(メタデータ) (2020-12-24T05:36:29Z) - Regret Minimization in Stochastic Contextual Dueling Bandits [40.17224226373741]
我々は、コンテキスト設定において、$K$武装デュエルバンディットの問題を考察する。
提案手法は, それぞれ, 後悔の保証を施した2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-20T06:36:19Z) - Bandit algorithms to emulate human decision making using probabilistic
distortions [20.422725678982726]
報奨分布に歪んだ確率を持つ2つの多重武装バンディット問題を定式化する。
以上のような後悔の最小化の問題と、マルチアームバンディットのための最高の腕識別フレームワークについて考察する。
論文 参考訳(メタデータ) (2016-11-30T17:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。