論文の概要: Eluder dimension: localise it!
- arxiv url: http://arxiv.org/abs/2601.09825v1
- Date: Wed, 14 Jan 2026 19:35:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:18.874812
- Title: Eluder dimension: localise it!
- Title(参考訳): Eluder dimension: ローカライズ!
- Authors: Alireza Bakhtiari, Alex Ayoub, Samuel Robertson, David Janz, Csaba Szepesvári,
- Abstract要約: 標準的なエローダ次元に基づく解析は,一階の後悔境界を導出できないことを示す。
溶剤次元のローカライズ法を提案する。
- 参考スコア(独自算出の注目度): 27.10100267312258
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We establish a lower bound on the eluder dimension of generalised linear model classes, showing that standard eluder dimension-based analysis cannot lead to first-order regret bounds. To address this, we introduce a localisation method for the eluder dimension; our analysis immediately recovers and improves on classic results for Bernoulli bandits, and allows for the first genuine first-order bounds for finite-horizon reinforcement learning tasks with bounded cumulative returns.
- Abstract(参考訳): 一般化された線形モデルクラスのエローダ次元に対する下界を確立し、標準的なエローダ次元に基づく解析が一階の後悔境界を導出できないことを示す。
解析はベルヌーイの盗賊の古典的な結果を即座に回復し改善し、有界累積回帰を伴う有限水平強化学習タスクの1次有界化を可能にした。
関連論文リスト
- A Gapped Scale-Sensitive Dimension and Lower Bounds for Offset Rademacher Complexity [72.82374764881489]
逐次的および非逐次的設定における関数クラスのスケール感応次元のギャップ化について検討した。
偏差次元は, オフセットラデマッハ平均値において低い境界となることを示す。
論文 参考訳(メタデータ) (2025-09-24T23:49:53Z) - Dimension-Free Bounds for Generalized First-Order Methods via Gaussian Coupling [6.402504044106936]
一般化された一階反復アルゴリズムの有限サンプル上に漸近的でない境界を確立する。
一般化された一階法と条件付きガウス過程の反復関係を明示的に結合する。
この結合は、穏やかなリプシッツ条件とモーメントマッチング条件の下で、厳密で次元自由な境界をもたらす。
論文 参考訳(メタデータ) (2025-08-14T16:08:01Z) - Entropic Mirror Descent for Linear Systems: Polyak's Stepsize and Implicit Bias [55.72269695392027]
本稿では,線形系を解くためにエントロピックミラー降下を適用することに焦点を当てる。
収束解析の主な課題は、領域の非有界性に起因する。
制限的な仮定を課さずにこれを克服するために、Polyak型階段の変種を導入する。
論文 参考訳(メタデータ) (2025-05-05T12:33:18Z) - Non-Vacuous Generalization Bounds for Large Language Models [78.42762571499061]
事前訓練された大言語モデルに対して、最初の空でない一般化境界を提供する。
より大きいモデルはより優れた一般化バウンダリを持ち、より小さなモデルよりも圧縮可能であることを示す。
論文 参考訳(メタデータ) (2023-12-28T17:58:42Z) - On the Sublinear Regret of GP-UCB [58.25014663727544]
ガウス過程上信頼境界 (GP-UCB) アルゴリズムは, ほぼ最適の後悔率を有することを示す。
私たちの改善は、基盤となるカーネルの滑らかさに比例してカーネルリッジ推定を正規化するという、重要な技術的貢献に依存しています。
論文 参考訳(メタデータ) (2023-07-14T13:56:11Z) - Generalization Bounds for Magnitude-Based Pruning via Sparse Matrix
Sketching [2.1485350418225244]
我々は、エラーが1つ、プルーニングによって引き起こされる近似、および2つのプルーニングモデルにおけるパラメータの数に依存するAroraなどの上に構築する。
破断された推定値は、高い確率で未破断された関数に近づき、第一基準を改善する。
我々は,MNISTおよびCIFAR10データセット上のReLU活性化フィードフォワードネットワークにおける新しい手法の有効性を実証的に検証した。
論文 参考訳(メタデータ) (2023-05-30T07:00:06Z) - Regret minimization in stochastic non-convex learning via a
proximal-gradient approach [80.59047515124198]
機械学習やオペレーションの応用によって動機づけられた私たちは、オンラインで制約された問題を最小化するために、一階のオラクルフィードバックを後悔しています。
我々は、近位複雑性低減技術を保証する新しいプロキシグレードを開発する。
論文 参考訳(メタデータ) (2020-10-13T09:22:21Z) - Provably adaptive reinforcement learning in metric spaces [45.104950321472955]
本研究では, 連続状態における強化学習と, 距離を付与した行動空間について検討する。
この結果が,距離空間における強化学習の適応的保証として初めて得られた。
論文 参考訳(メタデータ) (2020-06-18T22:28:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。