Fugu-MT 論文翻訳(概要): The Unreasonable Effectiveness of Greedy Algorithms in Multi-Armed Bandit with Many Arms

論文の概要: The Unreasonable Effectiveness of Greedy Algorithms in Multi-Armed Bandit with Many Arms

arxiv url: http://arxiv.org/abs/2002.10121v4
Date: Wed, 20 Mar 2024 17:15:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-21 23:26:53.591861
Title: The Unreasonable Effectiveness of Greedy Algorithms in Multi-Armed Bandit with Many Arms
Title（参考訳）: 多数の腕を持つマルチアーメッドバンドにおけるグリーディアルゴリズムの妥当な有効性
Authors: Mohsen Bayati, Nima Hamidi, Ramesh Johari, Khashayar Khosravi,
Abstract要約: 本研究は,Emphmany-armed regimeにおける$k$-armed bandit問題について考察する。以上の結果から,多腕の環境下での強欲なアルゴリズムには,新たなエフェフリー探索法が有用であることが示唆された。
参考スコア（独自算出の注目度）: 10.662105162882526
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We investigate a Bayesian $k$-armed bandit problem in the \emph{many-armed} regime, where $k \geq \sqrt{T}$ and $T$ represents the time horizon. Initially, and aligned with recent literature on many-armed bandit problems, we observe that subsampling plays a key role in designing optimal algorithms; the conventional UCB algorithm is sub-optimal, whereas a subsampled UCB (SS-UCB), which selects $\Theta(\sqrt{T})$ arms for execution under the UCB framework, achieves rate-optimality. However, despite SS-UCB's theoretical promise of optimal regret, it empirically underperforms compared to a greedy algorithm that consistently chooses the empirically best arm. This observation extends to contextual settings through simulations with real-world data. Our findings suggest a new form of \emph{free exploration} beneficial to greedy algorithms in the many-armed context, fundamentally linked to a tail event concerning the prior distribution of arm rewards. This finding diverges from the notion of free exploration, which relates to covariate variation, as recently discussed in contextual bandit literature. Expanding upon these insights, we establish that the subsampled greedy approach not only achieves rate-optimality for Bernoulli bandits within the many-armed regime but also attains sublinear regret across broader distributions. Collectively, our research indicates that in the many-armed regime, practitioners might find greater value in adopting greedy algorithms.
Abstract（参考訳）: 我々は、emph{many-armed} 体制におけるベイズ的 $k$-armed bandit 問題を調査し、$k \geq \sqrt{T}$ と $T$ は時間的地平線を表す。従来の UCB アルゴリズムは準最適であるのに対して,UPB (SS-UCB) は$\Theta(\sqrt{T})$ arms を選択して UCB フレームワーク上での実行を最適化し,レート最適化を実現する。しかし、SS-UCBの理論的には最適な後悔の約束にもかかわらず、経験的に最高の腕を常に選択する欲求アルゴリズムと比較して経験的に劣る。この観察は実世界のデータを用いたシミュレーションを通じてコンテキスト設定にまで拡張される。以上の結果から, 腕の報酬の分布に関する末尾イベントと基本的に関連付けられている, 多数の腕の文脈において, 欲求アルゴリズムに有用な新しい形態の「emph{free exploration」が示唆された。この発見は、文脈的バンディット文学で最近議論されたように、共変量変動に関連する自由探索の概念から分岐する。これらの知見を拡大して、サブサンプルの欲求アプローチが、ベルヌーイの盗賊の利率最適性を達成するだけでなく、幅広い分布においてサブ線形後悔を達成できることを示す。我々の研究は、多くの武器を持つ体制では、実践者が欲求アルゴリズムを採用することにより大きな価値を見出す可能性があることを示唆している。

関連論文リスト

Influential Bandits: Pulling an Arm May Change the Environment [44.71145269686588]
現実世界のアプリケーションは、しばしば非定常環境と武器間の相互依存を含む。本稿では,未知の,対称な正の半定値相互作用行列による腕間相互作用をモデル化する,影響力のあるバンドイット問題を提案する。我々は,損失ダイナミクスの構造に合わせて,低信頼境界(LCB)推定器に基づく新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-04-11T02:05:51Z)
Continuous K-Max Bandits [54.21533414838677]
我々は、連続的な結果分布と弱い値-インデックスフィードバックを持つ、$K$-Maxのマルチアームバンディット問題について検討する。この設定は、レコメンデーションシステム、分散コンピューティング、サーバスケジューリングなどにおいて重要なアプリケーションをキャプチャします。我々の重要な貢献は、適応的な離散化とバイアス補正された信頼境界を組み合わせた計算効率の良いアルゴリズムDCK-UCBである。
論文参考訳（メタデータ） (2025-02-19T06:37:37Z)
Indexed Minimum Empirical Divergence-Based Algorithms for Linear Bandits [55.938644481736446]
Indexed Minimum Empirical Divergence (IMED)は、マルチアームバンディット問題に対する非常に効果的なアプローチである。 UCBベースのアルゴリズムとトンプソンサンプリングを実証的に上回ることが観察されている。我々は、LinIMEDアルゴリズムのファミリーと呼ぶIMEDアルゴリズムの新しい線形バージョンを提案する。
論文参考訳（メタデータ） (2024-05-24T04:11:58Z)
Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文参考訳（メタデータ） (2023-12-19T13:17:43Z)
Combinatorial Stochastic-Greedy Bandit [79.1700188160944]
我々は,選択した$n$のアームセットのジョイント報酬以外の余分な情報が観測されない場合に,マルチアームのバンディット問題に対する新規グリーディ・バンディット(SGB)アルゴリズムを提案する。 SGBは最適化された拡張型コミットアプローチを採用しており、ベースアームの大きなセットを持つシナリオ用に特別に設計されている。
論文参考訳（メタデータ） (2023-12-13T11:08:25Z)
Variance-Aware Regret Bounds for Stochastic Contextual Dueling Bandits [53.281230333364505]
本稿では, 一般化線形モデル(GLM)から, デュエルアームのバイナリ比較を生成するコンテキストデュエルバンド問題について検討する。本稿では,SupLinUCB型アルゴリズムを提案する。このアルゴリズムは,計算効率と分散を意識したリセットバウンド$tilde Obig(dsqrtsum_t=1Tsigma_t2 + dbig)$を提案する。我々の後悔は、比較が決定論的である場合の直感的な期待と自然に一致し、アルゴリズムは$tilde O(d)$ regretにのみ悩まされる。
論文参考訳（メタデータ） (2023-10-02T08:15:52Z)
Multi-armed Bandit Algorithm against Strategic Replication [5.235979896921492]
我々は,各エージェントが一組のアームを登録する多腕バンディット問題を考慮し,各エージェントがそのアームを選択すると報酬を受け取る。エージェントは、より多くの武器を複製で戦略的に送信し、バンディットアルゴリズムの探索と探索のバランスを悪用することで、より多くの報酬をもたらす可能性がある。本稿では,複製の復号化と,最小限の累積後悔を実現するバンディットアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-10-23T07:38:44Z)
The Fragility of Optimized Bandit Algorithms [4.390757904176221]
帯域幅アルゴリズムの最適設計に関する文献の多くは、期待される後悔の脆弱さに基づいている。最適化された UCB バンディットの設計は,問題をわずかに誤定義した場合に脆弱であることを示す。提案手法は, 誤り特定に対する強靭性を確保するために, UCBアルゴリズムを改良可能であることを示す。
論文参考訳（メタデータ） (2021-09-28T10:11:06Z)
Be Greedy in Multi-Armed Bandits [22.301793734117805]
グレディアルゴリズムは、各ラウンドで局所最適選択を行う、シーケンシャルな決定問題の最も単純なものである。 We provide a generic worst-case bound on the regret of the Greedy algorithm。連続・無限・多武装バンディット問題において,ほぼ最適の最悪の後悔境界を検証できることを証明した。
論文参考訳（メタデータ） (2021-01-04T16:47:02Z)
Upper Confidence Bounds for Combining Stochastic Bandits [52.10197476419621]
バンディットアルゴリズムを結合する簡単な手法を提案する。私たちのアプローチは、個々のbanditアルゴリズムのそれぞれを、より高いレベルのn$-armed bandit問題のアームとして扱う"meta-ucb"手順に基づいています。
論文参考訳（メタデータ） (2020-12-24T05:36:29Z)
Restless-UCB, an Efficient and Low-complexity Algorithm for Online Restless Bandits [61.490254407420906]
我々は、各腕の状態がマルコフ連鎖に従って進化するオンラインレス・バンディット問題について研究する。本研究では,探索研究の枠組みに従う学習方針であるReestless-UCBを提案する。
論文参考訳（メタデータ） (2020-11-05T05:16:04Z)
Bandit algorithms to emulate human decision making using probabilistic distortions [20.422725678982726]
報奨分布に歪んだ確率を持つ2つの多重武装バンディット問題を定式化する。以上のような後悔の最小化の問題と、マルチアームバンディットのための最高の腕識別フレームワークについて考察する。
論文参考訳（メタデータ） (2016-11-30T17:37:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。