論文の概要: On Lai's Upper Confidence Bound in Multi-Armed Bandits
- arxiv url: http://arxiv.org/abs/2410.02279v1
- Date: Thu, 03 Oct 2024 07:58:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-04 17:54:33.457568
- Title: On Lai's Upper Confidence Bound in Multi-Armed Bandits
- Title(参考訳): マルチアーマッドバンドにおけるレイのアッパー信頼境界について
- Authors: Huachen Ren, Cun-Hui Zhang,
- Abstract要約: 我々は、Tze Leung Lai が多武装の盗賊のトピックに精力的に貢献したことに敬意を表します。
我々は、高い信頼度境界指数に対して、急激な非漸近的後悔境界を確立する。
我々の結果は、機械学習の文献にもっと注目に値する、Laiの独創的な作品の側面を強調します。
- 参考スコア(独自算出の注目度): 4.14360329494344
- License:
- Abstract: In this memorial paper, we honor Tze Leung Lai's seminal contributions to the topic of multi-armed bandits, with a specific focus on his pioneering work on the upper confidence bound. We establish sharp non-asymptotic regret bounds for an upper confidence bound index with a constant level of exploration for Gaussian rewards. Furthermore, we establish a non-asymptotic regret bound for the upper confidence bound index of \cite{lai1987adaptive} which employs an exploration function that decreases with the sample size of the corresponding arm. The regret bounds have leading constants that match the Lai-Robbins lower bound. Our results highlight an aspect of Lai's seminal works that deserves more attention in the machine learning literature.
- Abstract(参考訳): この記念論文では、Tze Leung Lai による多武装の盗賊のトピックへの献身的な貢献を顕彰する。
ガウス報酬の探索レベルが一定である高信頼度有界指数に対して、急激な非漸近的後悔境界を確立する。
さらに, 対応する腕の標本サイズに応じて減少する探索関数を用いて, 上面信頼度有界指数に対する非漸近的後悔境界を定めている。
後悔境界は、レイ・ロビンズの下界と一致する鉛直定数を持つ。
我々の結果は、機械学習の文献にもっと注目に値する、Laiの独創的な作品の側面を強調します。
関連論文リスト
- Multi-Armed Bandits with Abstention [62.749500564313834]
本稿では, 新たな戦略要素である禁忌を取り入れた, 正準多重武装バンディット問題の拡張を提案する。
この強化されたフレームワークでは、エージェントは各タイムステップでアームを選択することだけでなく、観察する前に即時報酬を受け付けないオプションも備えている。
論文 参考訳(メタデータ) (2024-02-23T06:27:12Z) - Stochastic Graph Bandit Learning with Side-Observations [4.910658441596583]
基礎となるグラフ構造と報酬ギャップの両方に適応するアルゴリズムを提案する。
我々の知る限りでは、この設定においてギャップ依存の上界を初めて提供するアルゴリズムである。
論文 参考訳(メタデータ) (2023-08-29T08:14:19Z) - Regret Lower Bounds in Multi-agent Multi-armed Bandit [14.822625665220068]
Multi-armed Banditは、後悔の証明可能な上限を持つメソッドを動機付けている。
異なる設定にまたがる後悔の少ない境界について、初めて包括的な研究を行った。
論文 参考訳(メタデータ) (2023-08-15T21:20:24Z) - Exact Non-Oblivious Performance of Rademacher Random Embeddings [79.28094304325116]
本稿では,Rademacherランダムプロジェクションの性能を再検討する。
入力データに関して数値的に鋭く、曖昧でない新しい統計的保証を確立する。
論文 参考訳(メタデータ) (2023-03-21T11:45:27Z) - Cascaded Gaps: Towards Gap-Dependent Regret for Risk-Sensitive
Reinforcement Learning [14.036298712230233]
エントロピー的リスク尺度に基づいて,リスクに敏感な強化学習のためのギャップ依存的後悔保証について検討した。
マルコフ決定過程における2つのモデル自由アルゴリズムに対する非漸近的および対数的後悔境界を導出する。
論文 参考訳(メタデータ) (2022-03-07T03:07:09Z) - On Lower Bounds for Standard and Robust Gaussian Process Bandit
Optimization [55.937424268654645]
有界ノルムを持つ関数のブラックボックス最適化問題に対するアルゴリズム非依存な下界を考える。
本稿では, 単純さ, 汎用性, エラー確率への依存性の向上など, 後悔の下位境界を導出するための新しい証明手法を提案する。
論文 参考訳(メタデータ) (2020-08-20T03:48:14Z) - Relative Deviation Margin Bounds [55.22251993239944]
我々はRademacher複雑性の観点から、分布依存と一般家庭に有効な2種類の学習境界を与える。
有限モーメントの仮定の下で、非有界な損失関数に対する分布依存的一般化境界を導出する。
論文 参考訳(メタデータ) (2020-06-26T12:37:17Z) - Tight Lower Bounds for Combinatorial Multi-Armed Bandits [72.56064196252498]
Combinatorial Multi-Armed Bandit 問題は、エージェントが各ラウンドで一組の腕を選択する、シーケンシャルな意思決定問題である。
最近提案されたGini重み付き滑らか度パラメータが単調報酬関数の下限を決定することを示す。
論文 参考訳(メタデータ) (2020-02-13T08:53:43Z) - Finite-Time Analysis of Round-Robin Kullback-Leibler Upper Confidence
Bounds for Optimal Adaptive Allocation with Multiple Plays and Markovian
Rewards [10.66048003460524]
本稿では,複数の演奏とマルコフ報酬を含む古典的マルチアームバンディット問題の拡張について検討する。
この問題に対処するために、各段階において、全てのアームのサンプル手段からの情報と、ラウンドロビン方式で選択された単一アームのクルバック・リーバー上信頼境界とを結合する適応的アロケーションルールを検討する。
論文 参考訳(メタデータ) (2020-01-30T08:09:01Z) - Corruption-robust exploration in episodic reinforcement learning [76.19192549843727]
本研究は, システムにおける報酬と遷移確率の両面において, 敵対的腐敗下での多段階・多段階・多段階強化学習について検討した。
我々の枠組みは、汚職の欠如をほぼ最適に後悔する効率的なアルゴリズムをもたらす。
特に,本研究は,根本的強化学習のためのBandit-Feedbackモデルにおいて,純粋にI.d.遷移からの逸脱を保証した最初のサブ線形後悔の保証を提供する。
論文 参考訳(メタデータ) (2019-11-20T03:49:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。