論文の概要: Fast Rate Generalization Error Bounds: Variations on a Theme
- arxiv url: http://arxiv.org/abs/2205.03131v1
- Date: Fri, 6 May 2022 10:39:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-09 14:21:23.811188
- Title: Fast Rate Generalization Error Bounds: Variations on a Theme
- Title(参考訳): 高速レート一般化誤差境界:テーマのバリエーション
- Authors: Xuetong Wu, Jonathan H. Manton, Uwe Aickelin, Jingge Zhu
- Abstract要約: 期待一般化誤差の収束速度は O(sqrtlambda/n) の形で表されることを示す。
我々は、(eta,c)-central 条件と呼ぶ高速な一般化誤差に必要な重要な条件を同定する。
この条件下では、特定の学習アルゴリズムに対するO(lambda/n)の収束率を用いて、一般化誤差と過剰リスクに関する情報理論境界を与える。
- 参考スコア(独自算出の注目度): 5.081241420920605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A recent line of works, initiated by \cite{russo2016controlling} and
\cite{xu2017information}, has shown that the generalization error of a learning
algorithm can be upper bounded by information measures. In most of the relevant
works, the convergence rate of the expected generalization error is in the form
of O(\sqrt{\lambda/{n}}) where \lambda is some information-theoretic quantities
such as the mutual information between the data sample and the learned
hypothesis. However, such a learning rate is typically considered to be "slow",
compared to a "fast rate" of O(1/n) in many learning scenarios. In this work,
we first show that the square root does not necessarily imply a slow rate, and
a fast rate (O(1/n)) result can still be obtained using this bound under
appropriate assumptions. Furthermore, we identify the key conditions needed for
the fast rate generalization error, which we call the (\eta,c)-central
condition. Under this condition, we give information-theoretic bounds on the
generalization error and excess risk, with a convergence rate of O(\lambda/{n})
for specific learning algorithms such as empirical risk minimization. Finally,
analytical examples are given to show the effectiveness of the bounds.
- Abstract(参考訳): 原文(投稿日:2019/09/17)へのリンク \cite{russo2016controlling} と \cite{xu2017information} によって始められた最近の一連の研究は、学習アルゴリズムの一般化誤差が情報尺度によって上限を上回ることができることを示した。
関連するほとんどの研究において、期待一般化誤差の収束率は o(\sqrt{\lambda/{n}}) の形であり、ここで \lambda はデータサンプルと学習仮説の間の相互情報のような情報理論的な量である。
しかし、このような学習速度は、多くの学習シナリオにおいてO(1/n)の「高速」と比較して「遅い」と考えられている。
本研究では,まず,平方根が必ずしも低速であるとは限らないことを示し,適切な仮定の下では,このバウンドを用いて高速率 (o(1/n)) の結果を得ることができることを示した。
さらに、(\eta,c)-central conditionと呼ばれる高速速度一般化エラーに必要な重要な条件を特定する。
この条件下では、経験的リスク最小化のような特定の学習アルゴリズムに対して、O(\lambda/{n})の収束率で一般化誤差と過剰リスクに関する情報理論境界を与える。
最後に、境界の有効性を示す分析的な例が与えられる。
関連論文リスト
- Fast Rate Information-theoretic Bounds on Generalization Errors [8.102199960821165]
学習アルゴリズムの一般化誤差は、学習アルゴリズムの学習データにおける損失と、目に見えないテストデータにおける損失との違いを指す。
一般化誤差に関する様々な情報理論境界が文献で導出されている。
本稿では,これらの境界の厳密性について,それらの収束速度の標本サイズ依存性の観点から検討する。
論文 参考訳(メタデータ) (2023-03-26T08:59:05Z) - Generalization Error Bounds for Noisy, Iterative Algorithms via Maximal
Leakage [24.40306100502023]
我々は,雑音学習アルゴリズムのクラスにおける一般化挙動を解析するために,情報理論の枠組みを採用する。
更新関数の仮定が雑音の最適選択にどのように影響するかを示す。
論文 参考訳(メタデータ) (2023-02-28T12:13:57Z) - Limitations of Information-Theoretic Generalization Bounds for Gradient
Descent Methods in Stochastic Convex Optimization [48.12845778927164]
凸最適化の設定において,勾配勾配降下の最小値設定の見通しを考察する。
勾配法の研究においてよく用いられる手法として、最終回はガウス雑音によって劣化し、ノイズの多い「代理」アルゴリズムが生成される。
以上の結果から,情報理論を用いた勾配降下解析には新たな考え方が必要であることが示唆された。
論文 参考訳(メタデータ) (2022-12-27T17:16:48Z) - Instance-Dependent Generalization Bounds via Optimal Transport [51.71650746285469]
既存の一般化境界は、現代のニューラルネットワークの一般化を促進する重要な要因を説明することができない。
データ空間における学習予測関数の局所リプシッツ正則性に依存するインスタンス依存の一般化境界を導出する。
ニューラルネットワークに対する一般化境界を実験的に解析し、有界値が有意義であることを示し、トレーニング中の一般的な正規化方法の効果を捉える。
論文 参考訳(メタデータ) (2022-11-02T16:39:42Z) - Bregman divergence based em algorithm and its application to classical
and quantum rate distortion theory [61.12008553173672]
本稿では,Bregman分散系における指数サブファミリーと混合サブファミリー間のBregman分散の最小化問題に対処する。
このアルゴリズムを量子設定を含む歪みとその変種の評価に適用する。
論文 参考訳(メタデータ) (2022-01-07T13:33:28Z) - Information-Theoretic Generalization Bounds for Iterative
Semi-Supervised Learning [81.1071978288003]
特に,情報理論の原理を用いて,反復型SSLアルゴリズムのエミュレータ一般化誤差の振る舞いを理解することを目的とする。
我々の理論的結果は、クラス条件分散があまり大きくない場合、一般化誤差の上限は反復数とともに単調に減少するが、すぐに飽和することを示している。
論文 参考訳(メタデータ) (2021-10-03T05:38:49Z) - RATT: Leveraging Unlabeled Data to Guarantee Generalization [96.08979093738024]
ラベルのないデータを利用して一般化境界を生成する手法を紹介します。
境界が0-1経験的リスク最小化に有効であることを証明します。
この作業は、見えないラベル付きデータが利用できない場合でも、ディープネットの一般化を証明するためのオプションを実践者に提供します。
論文 参考訳(メタデータ) (2021-05-01T17:05:29Z) - Super fast rates in structured prediction [88.99819200562784]
連続的な問題が連続的な値を予測しているときに、離散的な問題が本質的に離散的なアウトプットを予測しているという事実を活用する方法を示す。
まず、近接する隣人に基づく予測器について説明し、二項分類で知られている確率を、構造的予測の枠組み内の任意の離散問題に一般化する。
次に、カーネルリッジの回帰について検討し、問題の硬さを特徴付けるパラメータによって、n-1/4$の既知のレートを任意に高速化する。
論文 参考訳(メタデータ) (2021-02-01T10:50:04Z) - Failures of model-dependent generalization bounds for least-norm
interpolation [39.97534972432276]
最小ノルム線形回帰器の一般化性能に関するバウンダリを考察する。
訓練例における様々な自然な関節分布に対して、任意の有効な一般化境界は非常に緩くなければならない。
論文 参考訳(メタデータ) (2020-10-16T16:30:05Z) - Generalization Error Bounds via $m$th Central Moments of the Information
Density [14.147617330278662]
本稿では,ランダム化学習アルゴリズムの一般化誤差に対するバウンダリを導出する一般手法を提案する。
我々の手法は、平均一般化誤差の有界値と、その尾の確率の有界値を得るのに利用できる。
論文 参考訳(メタデータ) (2020-04-20T09:23:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。