論文の概要: Adaptive Learning Rates with Surrogate Probability for Follow-the-Perturbed-Leader
- arxiv url: http://arxiv.org/abs/2606.06043v1
- Date: Thu, 04 Jun 2026 11:36:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.760446
- Title: Adaptive Learning Rates with Surrogate Probability for Follow-the-Perturbed-Leader
- Title(参考訳): 追従型リーダのサロゲート確率を考慮した適応学習率
- Authors: Jongyeong Lee, Junya Honda, Shinji Ito, Chansoo Kim,
- Abstract要約: フォロー・ザ・レギュラライズド・リーダー・フレームワークは、オンライン学習の問題の有効性と柔軟性を示している。
本稿では,サロゲート確率関数を導入することで,FTPLの適応学習率を提案する。
本稿では,BOBWの適応学習率によるFTPLの保証について,専門家の助言で示す。
- 参考スコア(独自算出の注目度): 34.785711821917424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Follow-the-regularized-leader framework has shown effectiveness and flexibility in online learning problems, where the choice of learning rates are known to be crucial. Recently, adaptive learning rates defined in terms of the arm-selection probabilities, obtained by solving convex optimization, have achieved improved best-of-both-worlds (BOBW) guarantees in various bandit problems. In contrast, BOBW guarantees for its computationally efficient alternative, follow-the-perturbed-leader (FTPL), remain relatively limited since its optimization-free nature ironically makes the design of adaptive, probability-dependent learning rates non-trivial. To address this challenge, we propose an adaptive learning rate for FTPL by introducing surrogate probability functions that can be computed only from the available quantities, without requiring the exact probabilities. Based on these learning rates with surrogate functions, we provide the BOBW guarantee for FTPL with Pareto perturbations for any shape parameter $α>1$, generalizing prior results restricted to specific choices of $α=2$. We further show the BOBW guarantees for FTPL with adaptive learning rates in the bandit problem with expert advices. Our approach preserves the computational simplicity of FTPL while enabling probability-dependent adaptivity, and the surrogate-based methodology may be of independent interest in other algorithmic frameworks beyond FTPL and learning rate designs.
- Abstract(参考訳): フォロー・ザ・レギュラライズド・リーダー・フレームワークは、オンライン学習における効率性と柔軟性を示しており、学習率の選択が重要であることが知られている。
近年,コンベックス最適化によって得られるアーム選択確率で定義される適応学習速度は,様々な帯域幅問題において改善されたベスト・オブ・ボス・ワールド(BOBW)保証を実現している。
対照的に、BOBWは、その最適化のない性質が、適応的で確率に依存しない学習率の設計を非自明なものにしているため、その計算効率のよい代替案であるFTPL(英語版)を保証している。
この課題に対処するために、我々は、正確な確率を必要とせず、利用可能な量からのみ計算可能なサロゲート確率関数を導入することで、FTPLの適応学習率を提案する。
シュロゲート関数を用いたこれらの学習率に基づいて,任意の形状パラメータ$α>1$に対するPareto摂動を伴ってFTPLのBOBW保証を行い,先行結果をα=2$の特定の選択に限定して一般化する。
さらに,BOBW の適応学習率による FTPL の保証について,専門家の助言で示す。
提案手法は,確率依存適応性を実現しつつ,FTPLの計算の単純さを保ち,サロゲートに基づく手法は,FTPL以外のアルゴリズムフレームワークや学習率設計に独立して用いられる可能性がある。
関連論文リスト
- ODAR: Principled Adaptive Routing for LLM Reasoning via Active Inference [60.958331943869126]
ODAR-Expertは、原則化されたリソース割り当てによる精度と効率のトレードオフを最適化する適応的なルーティングフレームワークである。
我々は、MATHの98.2%の精度、HumanityのLast Examの54.8%を含む、強く一貫した利得を示している。
論文 参考訳(メタデータ) (2026-02-27T05:22:01Z) - Latent Chain-of-Thought for Visual Reasoning [53.541579327424046]
大型視覚言語モデル(LVLM)の解釈可能性および信頼性向上には,チェーン・オブ・シント(CoT)推論が不可欠である
我々は,LVLMにおける推論を後部推論として再構成し,償却変分推論に基づくスケーラブルなトレーニングアルゴリズムを提案する。
提案手法は,7つの推論ベンチマークにおいて,最先端のLVLMを強化することを実証的に実証する。
論文 参考訳(メタデータ) (2025-10-27T23:10:06Z) - BAPE: Learning an Explicit Bayes Classifier for Long-tailed Visual Recognition [78.70453964041718]
現在のディープラーニングアルゴリズムは通常、後部確率を簡易に推定することで最適分類器を解く。
この単純な手法は、厳密にバランスのとれた学術ベンチマークデータセットに有効であることが証明されている。
しかし、これは現実世界の長い尾のデータ分布には適用できない。
本稿では,データ分布のより正確な理論的推定を行う新しい手法(BAPE)を提案する。
論文 参考訳(メタデータ) (2025-06-29T15:12:50Z) - Over-the-Air Fair Federated Learning via Multi-Objective Optimization [52.295563400314094]
本稿では,公平なFLモデルを訓練するためのOTA-FFL(Over-the-air Fair Federated Learning Algorithm)を提案する。
OTA-FFLの公正性とロバストな性能に対する優位性を示す実験を行った。
論文 参考訳(メタデータ) (2025-01-06T21:16:51Z) - LinearAPT: An Adaptive Algorithm for the Fixed-Budget Thresholding
Linear Bandit Problem [4.666048091337632]
本稿では、Thresholding Linear Bandit(TLB)問題の固定予算設定のために設計された新しいアルゴリズムであるLinearAPTを提案する。
コントリビューションでは、LinearAPTの適応性、単純性、計算効率を強調しており、複雑なシーケンシャルな意思決定課題に対処するためのツールキットとして貴重なものとなっている。
論文 参考訳(メタデータ) (2024-03-10T15:01:50Z) - Stability-penalty-adaptive follow-the-regularized-leader: Sparsity,
game-dependency, and best-of-both-worlds [46.30750729936261]
FTRL(Follow-the-regularized-leader)は近年,バンドイット問題における適応性獲得の最も有望なアプローチの1つである。
我々は3種類の適応性を持ついくつかのアルゴリズムを確立する:空間性、ゲーム依存性、およびベスト・オブ・ボス・ワールド(BOBW)である。
論文 参考訳(メタデータ) (2023-05-26T23:20:48Z) - Towards Hyperparameter-free Policy Selection for Offline Reinforcement
Learning [10.457660611114457]
オフライン強化学習において、異なるトレーニングアルゴリズムによって生成される価値関数とポリシーの選択方法を示す。
我々は,近年の値関数選択の理論的進歩であるBVFT[XJ21]を用いて,Atariなどの離散作用ベンチマークにおいて,その有効性を示す。
論文 参考訳(メタデータ) (2021-10-26T20:12:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。