Fugu-MT 論文翻訳(概要): uniINF: Best-of-Both-Worlds Algorithm for Parameter-Free Heavy-Tailed MABs

論文の概要: uniINF: Best-of-Both-Worlds Algorithm for Parameter-Free Heavy-Tailed MABs

arxiv url: http://arxiv.org/abs/2410.03284v1
Date: Fri, 4 Oct 2024 09:55:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-02 23:18:35.998645
Title: uniINF: Best-of-Both-Worlds Algorithm for Parameter-Free Heavy-Tailed MABs
Title（参考訳）: uniINF:パラメータフリー重機MABのためのBest-of-Both-Worldsアルゴリズム
Authors: Yu Chen, Jiatai Huang, Yan Dai, Longbo Huang,
Abstract要約: 本稿では,HTMAB(Heavy-Tailed Multi-Armed Bandits)問題に対する新しいアルゴリズムを提案する。我々の新しいアルゴリズムユニは、Best-of-Both-Worlds(BoBW)特性を楽しみ、両環境とも最適に機能する。我々の知る限り、UniINFは重み付きMAB問題に対するBoBW特性を達成する最初のパラメータフリーアルゴリズムである。
参考スコア（独自算出の注目度）: 33.262918224598614
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: In this paper, we present a novel algorithm, uniINF, for the Heavy-Tailed Multi-Armed Bandits (HTMAB) problem, demonstrating robustness and adaptability in both stochastic and adversarial environments. Unlike the stochastic MAB setting where loss distributions are stationary with time, our study extends to the adversarial setup, where losses are generated from heavy-tailed distributions that depend on both arms and time. Our novel algorithm `uniINF` enjoys the so-called Best-of-Both-Worlds (BoBW) property, performing optimally in both stochastic and adversarial environments without knowing the exact environment type. Moreover, our algorithm also possesses a Parameter-Free feature, i.e., it operates without the need of knowing the heavy-tail parameters $(\sigma, \alpha)$ a-priori. To be precise, uniINF ensures nearly-optimal regret in both stochastic and adversarial environments, matching the corresponding lower bounds when $(\sigma, \alpha)$ is known (up to logarithmic factors). To our knowledge, uniINF is the first parameter-free algorithm to achieve the BoBW property for the heavy-tailed MAB problem. Technically, we develop innovative techniques to achieve BoBW guarantees for Parameter-Free HTMABs, including a refined analysis for the dynamics of log-barrier, an auto-balancing learning rate scheduling scheme, an adaptive skipping-clipping loss tuning technique, and a stopping-time analysis for logarithmic regret.
Abstract（参考訳）: 本稿では,HTMAB(Heavy-Tailed Multi-Armed Bandits)問題に対するUniINFアルゴリズムを提案する。時間とともに損失分布が一定となる確率的MAB設定とは異なり、本研究は両腕と時間に依存する重み付き分布から損失が生じる対向的な構成にまで拡張する。我々の新しいアルゴリズム「uniINF」は、Best-of-Both-Worlds(BoBW)特性を楽しみ、正確な環境タイプを知らずに確率的および対角的環境の両方で最適に機能する。さらに,本アルゴリズムはパラメータフリーの機能も備えており,重みパラメータ $(\sigma, \alpha)$ a-priori を知らずに動作する。正確に言うと、uniINFは確率的および対数的環境においてほぼ最適の後悔を保証し、$(\sigma, \alpha)$が知られているときに対応する下界と一致する(対数的要因まで)。我々の知る限り、UniINFは重み付きMAB問題に対するBoBW特性を達成する最初のパラメータフリーアルゴリズムである。技術的には、パラメータフリーHTMABのBoBW保証を実現する革新的な技術を開発し、ログバリアのダイナミクスの洗練された解析、自動分散学習率スケジューリングスキーム、適応的なスキップ・クリッピング・ロスチューニング技術、対数後悔の停止時間解析を含む。

関連論文リスト

Revisiting Weighted Strategy for Non-stationary Parametric Bandits and MDPs [56.246783503873225]
本稿では,非定常パラメトリックバンディットの重み付け戦略を再考する。本稿では,ウィンドウ/リスタートベースアルゴリズムと同様に,より単純な重みに基づくアルゴリズムを提案する。我々のフレームワークは、他のパラメトリックバンディットの後悔の限界を改善するのに使える。
論文参考訳（メタデータ） (2026-01-03T04:50:21Z)
Adapting to Stochastic and Adversarial Losses in Episodic MDPs with Aggregate Bandit Feedback [61.49239204705301]
本研究では,有限水平マルコフ決定過程(MDP)におけるオンライン学習について,包括的包括的包括的フィードバックモデルを用いて検討する。本研究は, オンライン最短経路問題の近年の進展に触発された, 占領対策, 自己拘束技術, 新たな損失推定器の組合せに依拠する。
論文参考訳（メタデータ） (2025-10-20T02:28:08Z)
Best-of-Both Worlds for linear contextual bandits with paid observations [16.13456643813766]
本稿では,この問題に対する計算効率の良いBest-of-Both-Worldsアルゴリズムを提案する。また, 逆数設定では$Theta(T2/3)$のミニマックス最適後悔を達成し, 複数対数的後悔を(破損した)レジームで保証することを示した。
論文参考訳（メタデータ） (2025-10-08T18:23:37Z)
Asymptotically Optimal Linear Best Feasible Arm Identification with Fixed Budget [55.938644481736446]
本稿では,誤差確率の指数的減衰を保証し,最適な腕識別のための新しいアルゴリズムを提案する。我々は,複雑性のレベルが異なる様々な問題インスタンスに対する包括的経験的評価を通じて,アルゴリズムの有効性を検証する。
論文参考訳（メタデータ） (2025-06-03T02:56:26Z)
Ensuring Safety in an Uncertain Environment: Constrained MDPs via Stochastic Thresholds [28.4976864705409]
本稿では,マルコフ決定過程(CMDP)を推定しきい値に対する制約で制約し,未知かつ不確実な環境下での強化学習の安全性を目標とした。我々は、不確実で動的な環境との相互作用から得られたGrowingWindowサンプリングを利用して閾値を推定し、そのしきい値に対して複数の制約を課す新しいモデルベース原始双対アルゴリズムであるPSOT(Pessimistic-Optimistic Thresholding)を設計する。 SPOTは、しきい値が不明な不確実な環境で保証された性能を実現する最初の強化学習アルゴリズムである。
論文参考訳（メタデータ） (2025-04-07T11:58:19Z)
A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文参考訳（メタデータ） (2024-10-14T12:10:06Z)
Beyond Primal-Dual Methods in Bandits with Stochastic and Adversarial Constraints [29.514323697659613]
我々は,学習者が任意の長期制約を満たすことなく報酬を最大化することを目的とした,knapsacks問題によるバンディットの一般化に対処する。私たちのゴールは、双方の制約の下で機能するベスト・オブ・ザ・ワールドのアルゴリズムを設計することです。
論文参考訳（メタデータ） (2024-05-25T08:09:36Z)
Best of Both Worlds Guarantees for Smoothed Online Quadratic Optimization [9.449153668916098]
各ラウンド$t$において、プレイヤーが2次的打撃コストと2次攻撃コストに応じてアクション$x_tをプレイし、アクションを切り替えるための2乗$ell$-normコストを加算する、スムーズなオンライン最適化(SOQO)問題について検討する。この問題クラスは、スマートグリッド管理、適応制御、データセンター管理など、幅広いアプリケーションドメインと強いつながりを持っています。本稿では, 最適に近い性能を同時に達成しつつ, 強健な対角性能を得るベスト・オブ・ザ・ワールドス・アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-10-31T22:59:23Z)
Stability-penalty-adaptive follow-the-regularized-leader: Sparsity, game-dependency, and best-of-both-worlds [46.30750729936261]
FTRL(Follow-the-regularized-leader)は近年,バンドイット問題における適応性獲得の最も有望なアプローチの1つである。我々は3種類の適応性を持ついくつかのアルゴリズムを確立する:空間性、ゲーム依存性、およびベスト・オブ・ボス・ワールド(BOBW)である。
論文参考訳（メタデータ） (2023-05-26T23:20:48Z)
Online Continuous Hyperparameter Optimization for Generalized Linear Contextual Bandits [55.03293214439741]
文脈的包帯では、エージェントは過去の経験に基づいた時間依存アクションセットから順次アクションを行う。そこで本稿では,文脈的包帯のためのオンライン連続型ハイパーパラメータチューニングフレームワークを提案する。理論上はサブ線形の後悔を達成でき、合成データと実データの両方において既存のすべての手法よりも一貫して優れた性能を発揮することを示す。
論文参考訳（メタデータ） (2023-02-18T23:31:20Z)
Sharp Variance-Dependent Bounds in Reinforcement Learning: Best of Both Worlds in Stochastic and Deterministic Environments [48.96971760679639]
マルコフ決定過程(MDP)の分散依存的後悔境界について検討する。環境の微細な分散特性を特徴付けるための2つの新しい環境規範を提案する。モデルに基づく手法では、MVPアルゴリズムの変種を設計する。特に、この境界は極小かつ決定論的 MDP に対して同時に最適である。
論文参考訳（メタデータ） (2023-01-31T06:54:06Z)
Adversarially Robust Multi-Armed Bandit Algorithm with Variance-Dependent Regret Bounds [34.37963000493442]
本稿では,マルチアーム・バンディット(MAB)問題について考察し,両対向的条件下でほぼ最適に機能する,新たなベスト・オブ・ボス・ワールド(BOBW)アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-06-14T12:58:46Z)
STORM+: Fully Adaptive SGD with Momentum for Nonconvex Optimization [74.1615979057429]
本研究では,スムーズな損失関数に対する期待値である非バッチ最適化問題について検討する。我々の研究は、学習率と運動量パラメータを適応的に設定する新しいアプローチとともに、STORMアルゴリズムの上に構築されている。
論文参考訳（メタデータ） (2021-11-01T15:43:36Z)
Byzantine-Resilient Non-Convex Stochastic Gradient Descent [61.6382287971982]
敵対的レジリエントな分散最適化。機械は独立して勾配を計算し協力することができます私達のアルゴリズムは新しい集中の技術およびサンプル複雑性に基づいています。それは非常に実用的です:それはないときすべての前の方法の性能を改善します。セッティングマシンがあります。
論文参考訳（メタデータ） (2020-12-28T17:19:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。