論文の概要: A Best-of-Both-Worlds Proof for Tsallis-INF without Fenchel Conjugates
- arxiv url: http://arxiv.org/abs/2511.11211v1
- Date: Fri, 14 Nov 2025 12:10:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.574229
- Title: A Best-of-Both-Worlds Proof for Tsallis-INF without Fenchel Conjugates
- Title(参考訳): フェンシェル共役を伴わないTsallis-INFのBest-of-Both-Worlds Proof
- Authors: Wei-Cheng Lee, Francesco Orabona,
- Abstract要約: 本稿では,Tsallis-INFマルチアームバンディットアルゴリズムのベスト・オブ・ボス・ワールド保証の導出について述べる。
特に、この証明はオンライン凸最適化の現代的なツールを使用し、共役関数の使用を避ける。
- 参考スコア(独自算出の注目度): 11.513419525702924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this short note, we present a simple derivation of the best-of-both-world guarantee for the Tsallis-INF multi-armed bandit algorithm from J. Zimmert and Y. Seldin. Tsallis-INF: An optimal algorithm for stochastic and adversarial bandits. Journal of Machine Learning Research, 22(28):1-49, 2021. URL https://jmlr.csail.mit.edu/papers/volume22/19-753/19-753.pdf. In particular, the proof uses modern tools from online convex optimization and avoid the use of conjugate functions. Also, we do not optimize the constants in the bounds in favor of a slimmer proof.
- Abstract(参考訳): 本稿では,J. Zimmert と Y. Seldin による Tsallis-INF multi-armed bandit アルゴリズムの両世界最良保証の簡単な導出について述べる。
Tsallis-INF: 確率的および対向的帯域幅の最適アルゴリズム。
Journal of Machine Learning Research, 22(28):1-49, 2021
URL https://jmlr.csail.mit.edu/papers/volume22/19-753/19-753.pdf
特に、この証明はオンライン凸最適化の現代的なツールを使用し、共役関数の使用を避ける。
また、スリムな証明に賛成する境界の定数を最適化しない。
関連論文リスト
- Improved Last-Iterate Convergence of Shuffling Gradient Methods for Nonsmooth Convex Optimization [21.865728815935665]
我々はRandom Reshuffle(textsfRR$) と Single Shuffle(textsfSS$) の戦略がどちらも Proximal GD よりも確実に高速であることを示す。
重要な意味として、suffix 平均に対して $textsfRR$ サンプリングスキームで(ほぼ)最適収束結果を与える。
論文 参考訳(メタデータ) (2025-05-29T03:53:45Z) - ImProver: Agent-Based Automated Proof Optimization [18.315243539816464]
リーンの任意のユーザ定義メトリクスを最適化するために、証明を書き換える大規模な言語モデルエージェントであるImProverを紹介します。
我々は、現実世界の学部生、競争、研究レベルの数学定理の書き換えについてImProverをテストする。
論文 参考訳(メタデータ) (2024-10-07T05:14:18Z) - Uniform Last-Iterate Guarantee for Bandits and Reinforcement Learning [26.07010600520053]
本稿では,強化学習アルゴリズムの累積性能と即時性能を両立させる,より強力な測度,一様ラストイテレート(ULI)保証を提案する。
ほぼ最適のULI保証は、上記のメトリクス間で、直接的に、ほぼ最適の累積性能を意味するが、その逆ではないことを実証する。
論文 参考訳(メタデータ) (2024-02-20T04:21:13Z) - Improved Algorithms for Stochastic Linear Bandits Using Tail Bounds for
Martingale Mixtures [26.683757807252675]
線形バンディット問題に対する最悪の後悔の保証を施した改良アルゴリズムを提案する。
我々は、我々の信頼シーケンスが、経験的にも理論的にも、競合よりも厳密であることを示す。
論文 参考訳(メタデータ) (2023-09-25T17:13:46Z) - Implicitly normalized forecaster with clipping for linear and non-linear
heavy-tailed multi-armed bandits [85.27420062094086]
Implicitly Normalized Forecaster (INF) は、敵対的マルチアームバンディット(MAB)問題に対する最適解であると考えられている。
重み付き設定のMAB問題に対するクリッピング(INFclip)を用いたINFの新バージョン"Implicitly Normalized Forecaster"を提案する。
INFclipは線形重み付きMAB問題に対して最適であり、非線形問題に対して有効であることを示す。
論文 参考訳(メタデータ) (2023-05-11T12:00:43Z) - Sarah Frank-Wolfe: Methods for Constrained Optimization with Best Rates and Practical Features [65.64276393443346]
Frank-Wolfe (FW) 法は、構造化制約による最適化問題の解法として一般的な手法である。
有限サム勾配の最小化のためのアルゴリズムの2つの新しい変種を示す。
論文 参考訳(メタデータ) (2023-04-23T20:05:09Z) - Online Learning with Adversaries: A Differential-Inclusion Analysis [52.43460995467893]
我々は,完全に非同期なオンラインフェデレート学習のための観察行列ベースのフレームワークを提案する。
我々の主な結果は、提案アルゴリズムがほぼ確実に所望の平均$mu.$に収束することである。
新たな差分包摂型2時間スケール解析を用いて,この収束を導出する。
論文 参考訳(メタデータ) (2023-04-04T04:32:29Z) - Optimal Gradient-based Algorithms for Non-concave Bandit Optimization [76.57464214864756]
この研究は、未知の報酬関数が非可逆であるようなバンドイット問題の大群を考察する。
我々のアルゴリズムは、非常に一般化されたゼロ階最適化のパラダイムに基づいている。
標準的な楽観的アルゴリズムは次元因子によって準最適であることを示す。
論文 参考訳(メタデータ) (2021-07-09T16:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。