論文の概要: Unified Framework of Distributional Regret in Multi-Armed Bandits and Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.05102v2
- Date: Thu, 07 May 2026 02:34:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 17:36:06.252584
- Title: Unified Framework of Distributional Regret in Multi-Armed Bandits and Reinforcement Learning
- Title(参考訳): マルチアーマッド帯域における分散レグレストの統一化と強化学習
- Authors: Harin Lee, Min-hwan Oh,
- Abstract要約: すべての信頼レベル$in (0,1]$に対して均一に保たれる確率的保証として分布的後悔を定式化する。
探索ボーナス$minc_1,k/N,c_2,k/sqrtN$,$N$は訪問数を表し,$(c_1,k,c_2,k)$はユーザ指定パラメータである。
我々の境界は、ミニマックスとインスタンス依存のレジームの両方において、期待と分布の後悔の間の最適なトレードオフを達成する
- 参考スコア(独自算出の注目度): 39.8867004581646
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We study the distribution of regret in stochastic multi-armed bandits and episodic reinforcement learning through a unified framework. We formalize a distributional regret bound as a probabilistic guarantee that holds uniformly over all confidence levels $δ\in (0,1]$, thereby characterizing the regret distribution across the full range of $δ$. We present a simple UCBVI-style algorithm with exploration bonus $\min\{c_{1,k}/N, c_{2,k}/\sqrt{N}\}$, where $N$ denotes the visit count and $(c_{1,k},c_{2,k})$ are user-specified parameters. For arbitrary parameter sequences, we derive general gap-independent and gap-dependent distributional regret bounds, yielding a principled characterization of how the parameters control the trade-off between expected performance, tail risk, and instance-dependent behavior. In particular, our bounds achieve optimal trade-offs between expected and distributional regret in both minimax and instance-dependent regimes. As a special case, for multi-armed bandits with $A$ arms and horizon $T$, we obtain a distributional regret bound of order $\mathcal{O}(\sqrt{AT}\log(1/δ))$, confirming the conjecture of Lattimore & Szepesvári (2020, Section 17.1) for the first time.
- Abstract(参考訳): 本研究では,確率的マルチアームバンディットにおける後悔の分布と,統合された枠組みによるエピソード強化学習について検討する。
すべての信頼レベル$δ\in (0,1]$に対して均一に保たれる確率的保証として分布的後悔を定式化し、従って、完全範囲のδ$の後悔分布を特徴づける。
探索ボーナス$\min\{c_{1,k}/N, c_{2,k}/\sqrt{N}\}$, $N$は訪問数を表し、$(c_{1,k}, c_{2,k})$はユーザ指定パラメータである。
任意のパラメータ列に対して、一般のギャップ非依存およびギャップ依存の分布的残差境界を導出し、パラメータが期待性能、テールリスク、インスタンス依存行動の間のトレードオフを制御する方法の原理的な特徴を与える。
特に、私たちの境界は、ミニマックスとインスタンス依存のレギュレーションの両方において、期待と分布の後悔の間の最適なトレードオフを達成する。
特別の場合、$A$腕と地平線$T$を持つ多武装の包帯に対して、位数$\mathcal{O}(\sqrt{AT}\log(1/δ))$の分布的後悔境界を求め、Lattimore & Szepesvári (2020, Section 17.1) の予想を初めて確認する。
関連論文リスト
- Near-Optimal Regret for KL-Regularized Multi-Armed Bandits [54.77408659142336]
KL正規化目標に対するオンライン学習の統計的効率について検討する。
我々は、MABsのKL正規化後悔が$$非依存であることを示し、$tilde(sqrtKT)$とスケールする。
論文 参考訳(メタデータ) (2026-03-02T18:17:33Z) - Optimal Unconstrained Self-Distillation in Ridge Regression: Strict Improvements, Precise Asymptotics, and One-Shot Tuning [61.07540493350384]
自己蒸留(英: Self-distillation, SD)とは、教師自身の予測と地道の混合で学生を訓練する過程である。
任意の予測リスクに対して、各正規化レベルにおいて、最適に混合された学生がリッジ教師に改善されることが示される。
本稿では,グリッド探索やサンプル分割,再構成なしに$star$を推定する一貫したワンショットチューニング手法を提案する。
論文 参考訳(メタデータ) (2026-02-19T17:21:15Z) - Tail Distribution of Regret in Optimistic Reinforcement Learning [3.9962751777898955]
累積的後悔$R_K$ over $K$ エピソードのテール分布を,期待値や単一高確率量子化ではなく,特徴付ける。
提案したアルゴリズムは、期待される後悔と、その後悔がガウス以下の尾を示す範囲のバランスをとるチューニングパラメータ$$に依存する。
論文 参考訳(メタデータ) (2025-11-23T02:23:09Z) - p-Mean Regret for Stochastic Bandits [52.828710025519996]
単純で統一された UCB ベースのアルゴリズムを導入し、新しい$p$-mean の後悔境界を実現する。
我々の枠組みは、特別な場合として、平均的な累積的後悔とナッシュ後悔の両方を包含する。
論文 参考訳(メタデータ) (2024-12-14T08:38:26Z) - $(\epsilon, u)$-Adaptive Regret Minimization in Heavy-Tailed Bandits [29.966828248335972]
我々は,学習者に対して,$epsilon$と$u$が不明な場合に,後悔の最小化問題を調査する。
AdaR-UCBは、適応しない重みを帯びたケースとほぼ一致した後悔の保証を享受する最初のアルゴリズムである。
論文 参考訳(メタデータ) (2023-10-04T17:11:15Z) - CRIMED: Lower and Upper Bounds on Regret for Bandits with Unbounded
Stochastic Corruption [21.709840199725015]
任意の汚職を伴う多武装バンディット設定における後悔最小化問題について検討する。
CRIMED(CRIMED)は,既知分散を伴う帯域幅に対する後悔度を正確に低く抑えるアルゴリズムである。
特に、CRIMEDは$varepsilon$値が$frac12$の汚職を効果的に処理できる。
論文 参考訳(メタデータ) (2023-09-28T16:19:53Z) - Contextual Combinatorial Bandits with Probabilistically Triggered Arms [55.9237004478033]
確率的に誘発される腕(C$2$MAB-T)を様々な滑らかさ条件下で検討した。
トリガー変調 (TPM) 条件の下では、C$2$-UC-Tアルゴリズムを考案し、後悔すべき$tildeO(dsqrtT)$を導出する。
論文 参考訳(メタデータ) (2023-03-30T02:51:00Z) - Robust Learning of Optimal Auctions [84.13356290199603]
本研究では、入札者の評価値のサンプルを逆向きに破損させたり、逆向きに歪んだ分布から引き出すことができる場合に、サンプルから収益-最適マルチバイダオークションを学習する問題について検討する。
我々は,コルモゴロフ-スミルノフ距離における元の分布に対して$alpha$-closeの「全ての真の分布」に対して,収入がほぼ同時に最適であるメカニズムを学習できる新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-13T17:37:21Z) - Adaptation to the Range in $K$-Armed Bandits [1.14219428942199]
我々は、[m,M]$の範囲でサポートされている有界分布に付随する$K$アームの帯域問題を考える。
分布依存型と分布非依存型との新たなトレードオフが発生し、典型的な$ln T$と$sqrtT$バウンドを同時に達成することができない。
論文 参考訳(メタデータ) (2020-06-05T11:26:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。