論文の概要: Optimal Arm Elimination Algorithms for Combinatorial Bandits
- arxiv url: http://arxiv.org/abs/2510.23992v1
- Date: Tue, 28 Oct 2025 01:50:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.71353
- Title: Optimal Arm Elimination Algorithms for Combinatorial Bandits
- Title(参考訳): 組合せ帯域に対する最適アーム除去アルゴリズム
- Authors: Yuxiao Wen, Yanjun Han, Zhengyuan Zhou,
- Abstract要約: Combinatorial Banditsは、古典的なバンディットフレームワークを、学習者が各ラウンドで複数のアームを選択する設定に拡張する。
腕を3つのカテゴリ(確認、アクティブ、削除)に分割する新しい除去方式を導入する。
学習者は,一般的なグラフフィードバックによるマルチアームバンディットと,線形コンテキストバンディットの2つの設定で,アルゴリズムの有効性を実証する。
- 参考スコア(独自算出の注目度): 31.17583484579669
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Combinatorial bandits extend the classical bandit framework to settings where the learner selects multiple arms in each round, motivated by applications such as online recommendation and assortment optimization. While extensions of upper confidence bound (UCB) algorithms arise naturally in this context, adapting arm elimination methods has proved more challenging. We introduce a novel elimination scheme that partitions arms into three categories (confirmed, active, and eliminated), and incorporates explicit exploration to update these sets. We demonstrate the efficacy of our algorithm in two settings: the combinatorial multi-armed bandit with general graph feedback, and the combinatorial linear contextual bandit. In both cases, our approach achieves near-optimal regret, whereas UCB-based methods can provably fail due to insufficient explicit exploration. Matching lower bounds are also provided.
- Abstract(参考訳): Combinatorial Banditsは、古典的なバンディットフレームワークを拡張し、学習者が各ラウンドで複数のアームを選択し、オンラインレコメンデーションやアソシエーション最適化などのアプリケーションによって動機付けられている設定に拡張する。
上信頼境界(UCB)アルゴリズムの拡張はこの文脈で自然に発生するが、適応型アーム除去法はより困難であることが証明された。
腕を3つのカテゴリ(確認,アクティブ,削除)に分割し,これらのセットを更新するための明示的な探索を取り入れた,新しい除去スキームを導入する。
本アルゴリズムの有効性は,汎用グラフフィードバックを用いた組合せ多重武装バンドイットと,組合せ線形文脈バンドイットの2つの設定で実証する。
いずれの場合も,UCBに基づく手法では明らかな探索が不十分なため,提案手法は確実に失敗する可能性がある。
一致した下限も設けられている。
関連論文リスト
- Reinforcement learning with combinatorial actions for coupled restless bandits [62.89013331120493]
提案するSEQUOIAは,動作空間に対する長期報酬を直接最適化するRLアルゴリズムである。
我々は,複数介入,経路制約,二部間マッチング,容量制約という,制約を伴う4つの新しいレスレス・バンディット問題に対して,SEQUOIAを実証的に検証した。
論文 参考訳(メタデータ) (2025-03-01T21:25:21Z) - Combinatorial Stochastic-Greedy Bandit [79.1700188160944]
我々は,選択した$n$のアームセットのジョイント報酬以外の余分な情報が観測されない場合に,マルチアームのバンディット問題に対する新規グリーディ・バンディット(SGB)アルゴリズムを提案する。
SGBは最適化された拡張型コミットアプローチを採用しており、ベースアームの大きなセットを持つシナリオ用に特別に設計されている。
論文 参考訳(メタデータ) (2023-12-13T11:08:25Z) - A Fast Algorithm for the Real-Valued Combinatorial Pure Exploration of Multi-Armed Bandit [55.2480439325792]
多武装バンディット(R-CPE-MAB)の真価純探査問題について検討する。
本稿では,差分に基づく探索法 (CombGapE) アルゴリズムを提案する。
我々は,CombGapEアルゴリズムが,合成データセットと実世界のデータセットの両方において,既存の手法を大幅に上回っていることを数値的に示す。
論文 参考訳(メタデータ) (2023-06-15T15:37:31Z) - Versatile Dueling Bandits: Best-of-both-World Analyses for Online
Learning from Preferences [28.79598714109439]
両環境および敵環境における$K$武器のデュエルバンディットの問題について検討する。
まず,マルチアームのバンディットに対して,任意の(一般的な)デュエル・バンドレットから新たなリダクションを提案する。
提案アルゴリズムは,コンドルチェット・ウィンナーベンチマークに対して最適な$O(sum_i = 1K fraclog TDelta_i)$ regret boundを達成した最初のアルゴリズムでもある。
論文 参考訳(メタデータ) (2022-02-14T13:37:23Z) - Efficient Pure Exploration for Combinatorial Bandits with Semi-Bandit
Feedback [51.21673420940346]
コンビナーシャルバンディットはマルチアームバンディットを一般化し、エージェントが腕のセットを選択し、選択したセットに含まれる各腕の騒々しい報酬を観察します。
我々は, 最善の腕を一定の信頼度で識別する純粋爆発問題と, 応答集合の構造が動作集合の1つと異なるような, より一般的な設定に注目する。
有限多面体に対するプロジェクションフリーオンライン学習アルゴリズムに基づいて、凸的に最適であり、競争力のある経験的性能を持つ最初の計算効率の良いアルゴリズムである。
論文 参考訳(メタデータ) (2021-01-21T10:35:09Z) - Upper Confidence Bounds for Combining Stochastic Bandits [52.10197476419621]
バンディットアルゴリズムを結合する簡単な手法を提案する。
私たちのアプローチは、個々のbanditアルゴリズムのそれぞれを、より高いレベルのn$-armed bandit問題のアームとして扱う"meta-ucb"手順に基づいています。
論文 参考訳(メタデータ) (2020-12-24T05:36:29Z) - Bandit algorithms to emulate human decision making using probabilistic
distortions [20.422725678982726]
報奨分布に歪んだ確率を持つ2つの多重武装バンディット問題を定式化する。
以上のような後悔の最小化の問題と、マルチアームバンディットのための最高の腕識別フレームワークについて考察する。
論文 参考訳(メタデータ) (2016-11-30T17:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。