論文の概要: On Lai's Upper Confidence Bound in Multi-Armed Bandits
- arxiv url: http://arxiv.org/abs/2410.02279v2
- Date: Fri, 4 Oct 2024 02:19:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 04:12:15.182067
- Title: On Lai's Upper Confidence Bound in Multi-Armed Bandits
- Title(参考訳): マルチアーマッドバンドにおけるレイのアッパー信頼境界について
- Authors: Huachen Ren, Cun-Hui Zhang,
- Abstract要約: 我々は、Tze Leung Lai が多武装の盗賊のトピックに精力的に貢献したことに敬意を表します。
我々は,高信頼度有界指数に対する非漸近的後悔境界を定めている。
我々の結果は、機械学習の文献にもっと注目に値する、Laiの独創的な作品の側面を強調します。
- 参考スコア(独自算出の注目度): 4.14360329494344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this memorial paper, we honor Tze Leung Lai's seminal contributions to the topic of multi-armed bandits, with a specific focus on his pioneering work on the upper confidence bound. We establish sharp non-asymptotic regret bounds for an upper confidence bound index with a constant level of exploration for Gaussian rewards. Furthermore, we establish a non-asymptotic regret bound for the upper confidence bound index of Lai (1987) which employs an exploration function that decreases with the sample size of the corresponding arm. The regret bounds have leading constants that match the Lai-Robbins lower bound. Our results highlight an aspect of Lai's seminal works that deserves more attention in the machine learning literature.
- Abstract(参考訳): この記念論文では、Tze Leung Lai による多武装の盗賊のトピックへの献身的な貢献を顕彰する。
ガウス報酬の探索レベルが一定である高信頼度有界指数に対して、急激な非漸近的後悔境界を確立する。
さらに,Lai (1987) の高信頼束縛指数に対して,対応する腕の標本サイズに比例して減少する探索関数を用いた非漸近的後悔境界を確立する。
後悔境界は、レイ・ロビンズの下界と一致する鉛直定数を持つ。
我々の結果は、機械学習の文献にもっと注目に値する、Laiの独創的な作品の側面を強調します。
関連論文リスト
- Best Arm Identification with Minimal Regret [55.831935724659175]
最高の腕識別問題 優雅にアマルガメートは、最小化とBAIを後悔している。
エージェントの目標は、所定の信頼度で最高の腕を特定することである。
二重KL-UCBアルゴリズムは、信頼度がゼロになる傾向があるため、最適性を達成する。
論文 参考訳(メタデータ) (2024-09-27T16:46:02Z) - Multi-Armed Bandits with Abstention [62.749500564313834]
本稿では, 新たな戦略要素である禁忌を取り入れた, 正準多重武装バンディット問題の拡張を提案する。
この強化されたフレームワークでは、エージェントは各タイムステップでアームを選択することだけでなく、観察する前に即時報酬を受け付けないオプションも備えている。
論文 参考訳(メタデータ) (2024-02-23T06:27:12Z) - Stochastic Graph Bandit Learning with Side-Observations [4.910658441596583]
基礎となるグラフ構造と報酬ギャップの両方に適応するアルゴリズムを提案する。
我々の知る限りでは、この設定においてギャップ依存の上界を初めて提供するアルゴリズムである。
論文 参考訳(メタデータ) (2023-08-29T08:14:19Z) - Regret Lower Bounds in Multi-agent Multi-armed Bandit [14.822625665220068]
Multi-armed Banditは、後悔の証明可能な上限を持つメソッドを動機付けている。
異なる設定にまたがる後悔の少ない境界について、初めて包括的な研究を行った。
論文 参考訳(メタデータ) (2023-08-15T21:20:24Z) - Exact Non-Oblivious Performance of Rademacher Random Embeddings [79.28094304325116]
本稿では,Rademacherランダムプロジェクションの性能を再検討する。
入力データに関して数値的に鋭く、曖昧でない新しい統計的保証を確立する。
論文 参考訳(メタデータ) (2023-03-21T11:45:27Z) - Cascaded Gaps: Towards Gap-Dependent Regret for Risk-Sensitive
Reinforcement Learning [14.036298712230233]
エントロピー的リスク尺度に基づいて,リスクに敏感な強化学習のためのギャップ依存的後悔保証について検討した。
マルコフ決定過程における2つのモデル自由アルゴリズムに対する非漸近的および対数的後悔境界を導出する。
論文 参考訳(メタデータ) (2022-03-07T03:07:09Z) - On Lower Bounds for Standard and Robust Gaussian Process Bandit
Optimization [55.937424268654645]
有界ノルムを持つ関数のブラックボックス最適化問題に対するアルゴリズム非依存な下界を考える。
本稿では, 単純さ, 汎用性, エラー確率への依存性の向上など, 後悔の下位境界を導出するための新しい証明手法を提案する。
論文 参考訳(メタデータ) (2020-08-20T03:48:14Z) - Relative Deviation Margin Bounds [55.22251993239944]
我々はRademacher複雑性の観点から、分布依存と一般家庭に有効な2種類の学習境界を与える。
有限モーメントの仮定の下で、非有界な損失関数に対する分布依存的一般化境界を導出する。
論文 参考訳(メタデータ) (2020-06-26T12:37:17Z) - Tight Lower Bounds for Combinatorial Multi-Armed Bandits [72.56064196252498]
Combinatorial Multi-Armed Bandit 問題は、エージェントが各ラウンドで一組の腕を選択する、シーケンシャルな意思決定問題である。
最近提案されたGini重み付き滑らか度パラメータが単調報酬関数の下限を決定することを示す。
論文 参考訳(メタデータ) (2020-02-13T08:53:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。