論文の概要: Revisiting Follow-the-Perturbed-Leader with Unbounded Perturbations in Bandit Problems
- arxiv url: http://arxiv.org/abs/2508.18604v1
- Date: Tue, 26 Aug 2025 02:12:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.639148
- Title: Revisiting Follow-the-Perturbed-Leader with Unbounded Perturbations in Bandit Problems
- Title(参考訳): 帯域問題における非有界摂動を考慮した追従型摂動リーダの再検討
- Authors: Jongyeong Lee, Junya Honda, Shinji Ito, Min-hwan Oh,
- Abstract要約: FTRL(Follow-the-Regularized-Leader)ポリシーはBOBW(Best-of-Both-Worlds)を達成している。
非対称なFr'echet型摂動の広いファミリーの下で、非有界摂動に対する古典的なFTRL-FTPL双対性を再検討し、FTPLに対するBOBW結果を確立する。
- 参考スコア(独自算出の注目度): 60.58442311545223
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Follow-the-Regularized-Leader (FTRL) policies have achieved Best-of-Both-Worlds (BOBW) results in various settings through hybrid regularizers, whereas analogous results for Follow-the-Perturbed-Leader (FTPL) remain limited due to inherent analytical challenges. To advance the analytical foundations of FTPL, we revisit classical FTRL-FTPL duality for unbounded perturbations and establish BOBW results for FTPL under a broad family of asymmetric unbounded Fr\'echet-type perturbations, including hybrid perturbations combining Gumbel-type and Fr\'echet-type tails. These results not only extend the BOBW results of FTPL but also offer new insights into designing alternative FTPL policies competitive with hybrid regularization approaches. Motivated by earlier observations in two-armed bandits, we further investigate the connection between the $1/2$-Tsallis entropy and a Fr\'echet-type perturbation. Our numerical observations suggest that it corresponds to a symmetric Fr\'echet-type perturbation, and based on this, we establish the first BOBW guarantee for symmetric unbounded perturbations in the two-armed setting. In contrast, in general multi-armed bandits, we find an instance in which symmetric Fr\'echet-type perturbations violate the key condition for standard BOBW analysis, which is a problem not observed with asymmetric or nonnegative Fr\'echet-type perturbations. Although this example does not rule out alternative analyses achieving BOBW results, it suggests the limitations of directly applying the relationship observed in two-armed cases to the general case and thus emphasizes the need for further investigation to fully understand the behavior of FTPL in broader settings.
- Abstract(参考訳): FTRL (Follow-the-Regularized-Leader) ポリシは、BOBW (Best-of-Both-Worlds) をハイブリット正規化によって実現しているのに対して、FTPL (Follow-the-Perturbed-Leader) の類似性は、本質的に解析上の課題のために制限されている。
FTPLの非対称摂動に対する古典的FTRL-FTPL双対性を再検討し、非対称な非有界Fr'echet型摂動の広いファミリーの下でFTPLのBOBW結果を確立する。
これらの結果は、FTPLのBOBW結果を拡張するだけでなく、ハイブリッド正規化アプローチと競合するFTPLポリシーを設計するための新たな洞察を提供する。
両腕のバンディットで観測された初期の観測により、我々はさらに1/2$-TsallisエントロピーとFr'echet型摂動の関連について検討した。
数値観測により, 対称なFr'echet型摂動に対応することが示唆され, このことから, 対称な非有界摂動に対する最初のBOBW保証が確立された。
対照的に、一般的なマルチアームバンドでは、対称Fr'echet型摂動が標準BOBW解析の鍵条件に反するケースが見つかる。
この例では、BOBWの結果を得られた代替分析を除外していないが、二本腕のケースで観察された関係を直接適用する限界を示唆しており、より広い環境でFTPLの振る舞いを十分に理解するためのさらなる調査の必要性を強調している。
関連論文リスト
- Regularized Online RLHF with Generalized Bilinear Preferences [68.44113000390544]
一般的な嗜好を伴う文脈的オンラインRLHFの問題を考える。
一般化された双線形選好モデルを用いて、低ランクなスキュー対称行列による選好を捉える。
グリーディポリシーの双対ギャップは推定誤差の正方形によって有界であることを示す。
論文 参考訳(メタデータ) (2026-02-26T15:27:53Z) - Sharp Convergence Rates for Masked Diffusion Models [53.117058231393834]
制約を克服するオイラー法に対する全変分に基づく解析法を開発した。
その結果、スコア推定の仮定を緩和し、パラメータ依存性を改善し、収束保証を確立する。
全体としては,CTMC軌道に沿った直接テレビによる誤り分解と,FHSのためのデカップリングに基づく経路解析を導入している。
論文 参考訳(メタデータ) (2026-02-26T00:47:51Z) - Stability and Generalization of Push-Sum Based Decentralized Optimization over Directed Graphs [55.77845440440496]
プッシュベースの分散通信は、情報交換が非対称である可能性のある通信ネットワークの最適化を可能にする。
我々は、グラディエント・プッシュ(SGP)アルゴリズムのための統一的な一様安定性フレームワークを開発する。
重要な技術的要素は、2つの量に束縛された不均衡認識の一般化である。
論文 参考訳(メタデータ) (2026-02-24T05:32:03Z) - Statistical-Geometric Degeneracy in UAV Search: A Physics-Aware Asymmetric Filtering Approach [23.49656058107753]
無人航空機 (UAV) を用いた災害後の生存者の移動は、基本的な物理的課題に直面している。
標準ガウスノイズとは異なり、破片からの信号反射は厳密に非負の範囲バイアスをもたらす。
既存のロバストな推定器は一般に対称損失関数で設計され、暗黙的に誤差対称性の仮定に依存する。
我々はNLOSバイアスの非負の物理先行を明示的に組み込んだ物理基底解 AsymmetricHuberEKF を提案する。
論文 参考訳(メタデータ) (2026-02-11T08:33:56Z) - Unveiling Implicit Advantage Symmetry: Why GRPO Struggles with Exploration and Difficulty Adaptation [19.404286148401795]
グループ相対アドバンテージ推定(GRAE)は、それ固有の暗黙の優位対称性を持つ。
探索インセンティブと試料拡散焦点を動的に変調する非対称GRAEを提案する。
7つのベンチマークでの実験では、A-GRAEはGRPOとその変種をLLMとMLLMの両方で一貫して改善している。
論文 参考訳(メタデータ) (2026-02-05T11:07:14Z) - Joint Asymmetric Loss for Learning with Noisy Labels [95.14298444251044]
対称的な損失は通常、過度に厳格な制約のために不適合な問題に悩まされる。
APL内では、対称的な損失がうまく拡張され、高度なロバストな損失関数が得られた。
JAL(Joint Asymmetric Loss)と呼ばれる新しいロバスト損失フレームワークを導入する。
論文 参考訳(メタデータ) (2025-07-23T16:57:43Z) - On the Power of Perturbation under Sampling in Solving Extensive-Form Games [56.013335390600524]
本研究では, サンプリング対象の広義ゲームにおいて, 摂動がいかにしてFTRL(Follow-the-Regularized-Leader)アルゴリズムを改良するかを検討する。
我々は、textitPerturbed FTRLアルゴリズムの統一フレームワークを提案し、PFTRL-KLとPFTRL-RKLの2つの変種について検討する。
論文 参考訳(メタデータ) (2025-01-28T00:29:38Z) - Symmetry verification for noisy quantum simulations of non-Abelian lattice gauge theories [0.0]
本稿では,非アベリア格子ゲージ理論に準じた対称性検証による誤差軽減手法について検討する。
本研究は,非アベリアゲージ理論のロバストな量子シミュレーション,誤り軽減手法のさらなる開発,およびquditプラットフォームにおける測定に基づく制御方法の新たな道を開くものである。
論文 参考訳(メタデータ) (2024-12-10T19:00:02Z) - Follow-the-Perturbed-Leader with Fr\'{e}chet-type Tail Distributions:
Optimality in Adversarial Bandits and Best-of-Both-Worlds [43.35179630620512]
本研究では,敵対的・武装的盗賊に対するFTPL(Follow-the-Perturbed-Leader)政策の最適性について検討した。
逆条件で$mathcalO(sqrtKT)$ regretsを達成するのに十分な摂動条件を確立する。
論文 参考訳(メタデータ) (2024-03-08T08:07:26Z) - On Batch Normalisation for Approximate Bayesian Inference [102.94525205971873]
バッチ正規化は証拠の下限(ELBO)の最適性に影響しないことを示す。
また,モンテカルロバッチ正規化(MCBN)アルゴリズムについても検討し,MCDropoutと平行な近似推論手法を提案する。
論文 参考訳(メタデータ) (2020-12-24T12:40:11Z) - Lower bounds in multiple testing: A framework based on derandomized
proxies [107.69746750639584]
本稿では, 各種コンクリートモデルへの適用例を示す, デランドマイズに基づく分析戦略を提案する。
これらの下界のいくつかを数値シミュレーションし、Benjamini-Hochberg (BH) アルゴリズムの実際の性能と密接な関係を示す。
論文 参考訳(メタデータ) (2020-05-07T19:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。