論文の概要: Dueling Bandits: From Two-dueling to Multi-dueling
- arxiv url: http://arxiv.org/abs/2211.10293v1
- Date: Wed, 16 Nov 2022 22:00:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 15:26:04.092264
- Title: Dueling Bandits: From Two-dueling to Multi-dueling
- Title(参考訳): デュエルバンド:ツー・ダウリングからマルチ・ダウリングへ
- Authors: Yihan Du, Siwei Wang, Longbo Huang
- Abstract要約: エージェントが複数の選択肢を同時に比較し、最適な腕を選択することで後悔を最小限に抑える、一般的なマルチダウリングバンディット問題について検討する。
この設定は従来の二段バンディット問題を一般化し、複数の選択肢に対する主観的なフィードバックを含む現実世界の多くのアプリケーションを見つける。
- 参考スコア(独自算出の注目度): 40.4378338001229
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study a general multi-dueling bandit problem, where an agent compares
multiple options simultaneously and aims to minimize the regret due to
selecting suboptimal arms. This setting generalizes the traditional two-dueling
bandit problem and finds many real-world applications involving subjective
feedback on multiple options. We start with the two-dueling bandit setting and
propose two efficient algorithms, DoublerBAI and MultiSBM-Feedback. DoublerBAI
provides a generic schema for translating known results on best arm
identification algorithms to the dueling bandit problem, and achieves a regret
bound of $O(\ln T)$. MultiSBM-Feedback not only has an optimal $O(\ln T)$
regret, but also reduces the constant factor by almost a half compared to
benchmark results. Then, we consider the general multi-dueling case and develop
an efficient algorithm MultiRUCB. Using a novel finite-time regret analysis for
the general multi-dueling bandit problem, we show that MultiRUCB also achieves
an $O(\ln T)$ regret bound and the bound tightens as the capacity of the
comparison set increases. Based on both synthetic and real-world datasets, we
empirically demonstrate that our algorithms outperform existing algorithms.
- Abstract(参考訳): エージェントが複数の選択肢を同時に比較し、最適な腕を選択することで後悔を最小限に抑える、一般的なマルチダウリングバンディット問題について検討する。
この設定は従来の二デューリングバンディット問題を一般化し、複数のオプションに対する主観的なフィードバックを含む多くの実世界のアプリケーションを見つける。
まず,2次元帯域設定から始め,DoublerBAIとMultiSBM-Feedbackという2つの効率的なアルゴリズムを提案する。
DoublerBAIは、最高の腕識別アルゴリズムの既知結果をデュエルバンディット問題に翻訳するための汎用スキーマを提供し、後悔する$O(\ln T)$を達成している。
multisbm-feedback は、最適な $o(\ln t)$ regret を持つだけでなく、ベンチマーク結果と比較して定数係数をほぼ半減させる。
そこで,本論文では,汎用マルチデュエルケースを考察し,効率的なアルゴリズムであるmultirucbを開発した。
一般マルチデューリングバンディット問題に対する新しい有限時間後悔解析を用いて、マルチルーシブは、比較集合の容量が増加するにつれて、$o(\ln t)$ regret bound とバウンド引き締めも達成できることを示した。
合成と実世界の両方のデータセットに基づいて、我々のアルゴリズムが既存のアルゴリズムより優れていることを実証的に実証した。
関連論文リスト
- Feel-Good Thompson Sampling for Contextual Dueling Bandits [49.450050682705026]
FGTS.CDBという名前のトンプソンサンプリングアルゴリズムを提案する。
われわれのアルゴリズムの核心は、デュエルバンディットに適した新しいFeel-Good探索用語である。
我々のアルゴリズムは最小限の誤差、すなわち $tildemathcalO(dsqrt T)$, $d$ はモデル次元、$T$ は時間水平線である。
論文 参考訳(メタデータ) (2024-04-09T04:45:18Z) - Combinatorial Stochastic-Greedy Bandit [79.1700188160944]
我々は,選択した$n$のアームセットのジョイント報酬以外の余分な情報が観測されない場合に,マルチアームのバンディット問題に対する新規グリーディ・バンディット(SGB)アルゴリズムを提案する。
SGBは最適化された拡張型コミットアプローチを採用しており、ベースアームの大きなセットを持つシナリオ用に特別に設計されている。
論文 参考訳(メタデータ) (2023-12-13T11:08:25Z) - Variance-Aware Regret Bounds for Stochastic Contextual Dueling Bandits [53.281230333364505]
本稿では, 一般化線形モデル(GLM)から, デュエルアームのバイナリ比較を生成するコンテキストデュエルバンド問題について検討する。
本稿では,SupLinUCB型アルゴリズムを提案する。このアルゴリズムは,計算効率と分散を意識したリセットバウンド$tilde Obig(dsqrtsum_t=1Tsigma_t2 + dbig)$を提案する。
我々の後悔は、比較が決定論的である場合の直感的な期待と自然に一致し、アルゴリズムは$tilde O(d)$ regretにのみ悩まされる。
論文 参考訳(メタデータ) (2023-10-02T08:15:52Z) - Batched Dueling Bandits [13.69077222007053]
そこで本研究では,2つの標準設定条件下で,K$アームのデュエルバンディット問題について検討した。
バッチ数と後悔数のトレードオフを円滑に行うアルゴリズムを得る。
論文 参考訳(メタデータ) (2022-02-22T04:02:36Z) - Versatile Dueling Bandits: Best-of-both-World Analyses for Online
Learning from Preferences [28.79598714109439]
両環境および敵環境における$K$武器のデュエルバンディットの問題について検討する。
まず,マルチアームのバンディットに対して,任意の(一般的な)デュエル・バンドレットから新たなリダクションを提案する。
提案アルゴリズムは,コンドルチェット・ウィンナーベンチマークに対して最適な$O(sum_i = 1K fraclog TDelta_i)$ regret boundを達成した最初のアルゴリズムでもある。
論文 参考訳(メタデータ) (2022-02-14T13:37:23Z) - Efficient Pure Exploration for Combinatorial Bandits with Semi-Bandit
Feedback [51.21673420940346]
コンビナーシャルバンディットはマルチアームバンディットを一般化し、エージェントが腕のセットを選択し、選択したセットに含まれる各腕の騒々しい報酬を観察します。
我々は, 最善の腕を一定の信頼度で識別する純粋爆発問題と, 応答集合の構造が動作集合の1つと異なるような, より一般的な設定に注目する。
有限多面体に対するプロジェクションフリーオンライン学習アルゴリズムに基づいて、凸的に最適であり、競争力のある経験的性能を持つ最初の計算効率の良いアルゴリズムである。
論文 参考訳(メタデータ) (2021-01-21T10:35:09Z) - Upper Confidence Bounds for Combining Stochastic Bandits [52.10197476419621]
バンディットアルゴリズムを結合する簡単な手法を提案する。
私たちのアプローチは、個々のbanditアルゴリズムのそれぞれを、より高いレベルのn$-armed bandit問題のアームとして扱う"meta-ucb"手順に基づいています。
論文 参考訳(メタデータ) (2020-12-24T05:36:29Z) - Bandit algorithms to emulate human decision making using probabilistic
distortions [20.422725678982726]
報奨分布に歪んだ確率を持つ2つの多重武装バンディット問題を定式化する。
以上のような後悔の最小化の問題と、マルチアームバンディットのための最高の腕識別フレームワークについて考察する。
論文 参考訳(メタデータ) (2016-11-30T17:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。