論文の概要: Optimal Best-Arm Identification under Fixed Confidence with Multiple Optima
- arxiv url: http://arxiv.org/abs/2505.15643v1
- Date: Wed, 21 May 2025 15:22:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.737518
- Title: Optimal Best-Arm Identification under Fixed Confidence with Multiple Optima
- Title(参考訳): 多重オプティマスを用いた固定信頼の下での最適ベストアーム同定
- Authors: Lan V. Truong,
- Abstract要約: 固定信頼条件下でのマルチアームバンディットにおけるベストアーム識別の問題について検討する。
我々の分析では、複数の最適なアームを明示的に説明できる新しい情報理論の下限を導入している。
- 参考スコア(独自算出の注目度): 18.601449856300984
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of best-arm identification in stochastic multi-armed bandits under the fixed-confidence setting, with a particular focus on instances that admit multiple optimal arms. While the Track-and-Stop algorithm of Garivier and Kaufmann (2016) is widely conjectured to be instance-optimal, its performance in the presence of multiple optima has remained insufficiently understood. In this work, we revisit the Track-and-Stop strategy and propose a modified stopping rule that ensures instance-optimality even when the set of optimal arms is not a singleton. Our analysis introduces a new information-theoretic lower bound that explicitly accounts for multiple optimal arms, and we demonstrate that our stopping rule tightly matches this bound.
- Abstract(参考訳): 確率的マルチアームバンディットにおける固定信頼条件下でのベストアーム識別の問題について検討し、特に複数の最適アームを付与する事例に着目した。
Garivier と Kaufmann の Track-and-Stop アルゴリズム (2016) はインスタンス最適化であると広く推測されているが、複数のオプティマが存在する場合のパフォーマンスは未だ十分に理解されていない。
本研究では、トラック・アンド・ストップ戦略を再検討し、最適なアームセットがシングルトンでない場合でも、インスタンス最適性を保証する修正された停止ルールを提案する。
我々の分析では、複数の最適なアームを明示的に説明する新しい情報理論の下限を導入し、我々の停止規則がこの境界に厳密に一致することを示した。
関連論文リスト
- Optimal Multi-Objective Best Arm Identification with Fixed Confidence [62.36929749450298]
我々は、各アームが選択時にM$Dのベクトル報酬を得られる多腕バンディット設定を考える。
最終的なゴールは、最も短い(予想される)時間において、エラーの確率の上限に従属する全ての目的の最良のアームを特定することである。
本稿では,各ステップでアームをサンプリングするために,エミュロゲート比例という新しいアイデアを用いたアルゴリズムを提案し,各ステップにおける最大最小最適化問題を解く必要をなくした。
論文 参考訳(メタデータ) (2025-01-23T12:28:09Z) - Best-Arm Identification in Unimodal Bandits [24.001611176749158]
本研究では, 固定信頼度ベストアーム識別問題について検討する。
我々は任意の境界の停止時間で2つ下げる。
腕の数に対する線形依存は、信頼性に依存しないコストでは避けられないことを示す。
論文 参考訳(メタデータ) (2024-11-04T09:05:11Z) - Optimal Multi-Fidelity Best-Arm Identification [65.23078799972188]
バンディットのベストアーム識別において、アルゴリズムは、できるだけ早く特定の精度で、最高平均報酬の腕を見つけることを任務とする。
マルチフィデリティのベストアーム識別について検討し、低コストで低いフィデリティ(正確な平均推定値を持たない)で腕をサンプリングすることを選択できる。
この問題に対処するためのいくつかの方法が提案されているが、その最適性は、特に最適な腕を特定するのに必要な総コストのゆるやかな下限のため、未解決のままである。
論文 参考訳(メタデータ) (2024-06-05T08:02:40Z) - A Minimaximalist Approach to Reinforcement Learning from Human Feedback [49.45285664482369]
人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。
我々のアプローチは、報酬モデルや不安定な敵の訓練を必要としないという点で最小主義である。
我々は,一連の継続的制御タスクにおいて,報酬モデルに基づくアプローチよりもはるかに効率的に学習できることを実証した。
論文 参考訳(メタデータ) (2024-01-08T17:55:02Z) - Thompson Exploration with Best Challenger Rule in Best Arm
Identification [66.33448474838342]
本稿では,バンドイットフレームワークにおける固定信頼度最良腕識別問題について検討する。
我々は、トンプソンサンプリングと、ベストチャレンジャールールとして知られる計算効率の良いアプローチを組み合わせた新しいポリシーを提案する。
論文 参考訳(メタデータ) (2023-10-01T01:37:02Z) - Pure Exploration in Bandits with Linear Constraints [15.547603114649464]
マルチアーム・バンディット・セットアップにおいて、最適ポリシーを一定の信頼度で識別する問題に対処する。
この設定に最適な2つのアルゴリズムを導入する。1つはトラック・アンド・ストップ法であり、もう1つはゲーム理論に基づく手法である。
限界を検証し、制約が問題の硬さをどのように変えるかを視覚化する実験結果を提供する。
論文 参考訳(メタデータ) (2023-06-22T10:00:33Z) - Efficient Pure Exploration for Combinatorial Bandits with Semi-Bandit
Feedback [51.21673420940346]
コンビナーシャルバンディットはマルチアームバンディットを一般化し、エージェントが腕のセットを選択し、選択したセットに含まれる各腕の騒々しい報酬を観察します。
我々は, 最善の腕を一定の信頼度で識別する純粋爆発問題と, 応答集合の構造が動作集合の1つと異なるような, より一般的な設定に注目する。
有限多面体に対するプロジェクションフリーオンライン学習アルゴリズムに基づいて、凸的に最適であり、競争力のある経験的性能を持つ最初の計算効率の良いアルゴリズムである。
論文 参考訳(メタデータ) (2021-01-21T10:35:09Z) - Optimal Best-arm Identification in Linear Bandits [79.3239137440876]
サンプルの複雑さが既知のインスタンス固有の下界と一致する単純なアルゴリズムを考案する。
既存のベストアーム識別戦略とは異なり、我々のアルゴリズムは武器の数に依存しない停止規則を用いる。
論文 参考訳(メタデータ) (2020-06-29T14:25:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。