論文の概要: Data-dependent Generalization Bounds via Variable-Size Compressibility
- arxiv url: http://arxiv.org/abs/2303.05369v2
- Date: Tue, 30 Jan 2024 14:30:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 19:52:48.356765
- Title: Data-dependent Generalization Bounds via Variable-Size Compressibility
- Title(参考訳): 可変サイズ圧縮によるデータ依存一般化境界
- Authors: Milad Sefidgaran and Abdellatif Zaidi
- Abstract要約: 我々は「可変サイズ圧縮性」フレームワークのレンズによる一般化誤差に関する新しいデータ依存上界を確立する。
このフレームワークでは、アルゴリズムの一般化誤差を、その入力データの可変サイズの「圧縮率」にリンクする。
私たちが確立した新しい一般化境界は、テール境界、期待上のテール境界、および予想外境界である。
- 参考スコア(独自算出の注目度): 19.190677069098037
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we establish novel data-dependent upper bounds on the
generalization error through the lens of a "variable-size compressibility"
framework that we introduce newly here. In this framework, the generalization
error of an algorithm is linked to a variable-size 'compression rate' of its
input data. This is shown to yield bounds that depend on the empirical measure
of the given input data at hand, rather than its unknown distribution. Our new
generalization bounds that we establish are tail bounds, tail bounds on the
expectation, and in-expectations bounds. Moreover, it is shown that our
framework also allows to derive general bounds on any function of the input
data and output hypothesis random variables. In particular, these general
bounds are shown to subsume and possibly improve over several existing
PAC-Bayes and data-dependent intrinsic dimension-based bounds that are
recovered as special cases, thus unveiling a unifying character of our
approach. For instance, a new data-dependent intrinsic dimension-based bound is
established, which connects the generalization error to the optimization
trajectories and reveals various interesting connections with the
rate-distortion dimension of a process, the R\'enyi information dimension of a
process, and the metric mean dimension.
- Abstract(参考訳): 本稿では,本稿で新たに紹介する「可変サイズ圧縮性」フレームワークのレンズを通して,一般化誤差に関する新しいデータ依存上界を確立する。
この枠組みでは、アルゴリズムの一般化誤差は入力データの可変サイズの「圧縮率」にリンクされる。
これは、未知の分布ではなく、与えられた入力データの経験的尺度に依存する境界を持つことが示される。
私たちが確立する新しい一般化境界は、テール境界、期待上のテール境界、そして予想内境界である。
さらに,本フレームワークは,入力データの任意の関数に対する一般境界を導出し,確率変数を出力することも可能であることを示した。
特に、これらの一般境界は、いくつかの既存のPAC-Bayesおよび特別なケースとして回収されるデータ依存の内在的次元ベース境界を仮定し、改善する可能性がある。
例えば、一般化誤差を最適化軌跡に接続し、プロセスの速度歪み次元、プロセスのR'enyi情報次元、および計量平均次元と様々な興味深い関係を明らかにする、新しいデータ依存内在次元ベース境界が確立される。
関連論文リスト
- Slicing Mutual Information Generalization Bounds for Neural Networks [14.48773730230054]
我々は、ディープラーニングアルゴリズムに適した、より厳密な情報理論の一般化バウンダリを導入する。
我々の境界は、標準MI境界よりも有意な計算的および統計的優位性を提供する。
パラメータがランダムな部分空間に正確に横たわる必要がないアルゴリズムに解析を拡張します。
論文 参考訳(メタデータ) (2024-06-06T13:15:37Z) - A unified framework for information-theoretic generalization bounds [8.04975023021212]
本稿では,学習アルゴリズムにおける情報理論の一般化境界を導出するための一般的な手法を提案する。
主な技術的ツールは、測度の変化と、$L_psi_p$ Orlicz空間におけるヤングの不等式の緩和に基づく確率的デコリレーション補題である。
論文 参考訳(メタデータ) (2023-05-18T15:36:20Z) - Instance-Dependent Generalization Bounds via Optimal Transport [51.71650746285469]
既存の一般化境界は、現代のニューラルネットワークの一般化を促進する重要な要因を説明することができない。
データ空間における学習予測関数の局所リプシッツ正則性に依存するインスタンス依存の一般化境界を導出する。
ニューラルネットワークに対する一般化境界を実験的に解析し、有界値が有意義であることを示し、トレーニング中の一般的な正規化方法の効果を捉える。
論文 参考訳(メタデータ) (2022-11-02T16:39:42Z) - Robustness Implies Generalization via Data-Dependent Generalization
Bounds [24.413499775513145]
本稿では、ロバスト性はデータ依存の一般化境界による一般化を意味することを示す。
本稿では,LassoとDeep Learningのいくつかの例を紹介する。
論文 参考訳(メタデータ) (2022-06-27T17:58:06Z) - Generalization Bounds via Convex Analysis [12.411844611718958]
連関出力分布の強い凸関数によって相互情報を置き換えることが可能であることを示す。
例えば、$p$-normの発散とワッサーシュタイン2距離の項で表される境界がある。
論文 参考訳(メタデータ) (2022-02-10T12:30:45Z) - Non-Linear Spectral Dimensionality Reduction Under Uncertainty [107.01839211235583]
我々は、不確実性情報を活用し、いくつかの従来のアプローチを直接拡張する、NGEUと呼ばれる新しい次元削減フレームワークを提案する。
提案したNGEUの定式化は,大域的な閉形式解を示し,Radecherの複雑性に基づいて,基礎となる不確実性がフレームワークの一般化能力に理論的にどのように影響するかを分析する。
論文 参考訳(メタデータ) (2022-02-09T19:01:33Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - Dimension Free Generalization Bounds for Non Linear Metric Learning [61.193693608166114]
我々はスパース体制と非スパース体制という2つの体制に対して一様一般化境界を提供する。
解の異なる新しい性質を頼りにすることで、次元自由一般化保証を提供することができることを示す。
論文 参考訳(メタデータ) (2021-02-07T14:47:00Z) - Learning Output Embeddings in Structured Prediction [73.99064151691597]
構造化予測に対する強力で柔軟なアプローチは、予測される構造化対象を潜在的に無限次元の特徴空間に埋め込むことである。
原空間における予測は、前像問題の解法により計算される。
本研究では,新しい特徴空間に出力埋め込みと回帰関数の有限近似を共同で学習することを提案する。
論文 参考訳(メタデータ) (2020-07-29T09:32:53Z) - Generalization Bounds via Information Density and Conditional
Information Density [14.147617330278662]
本稿では,指数関数的不等式に基づいてランダム化学習アルゴリズムの一般化誤差を導出する一般手法を提案する。
PAC-Bayesian と Single-draw の両方のシナリオに対して、平均一般化誤差のバウンダリと、そのテール確率のバウンダリを提供する。
論文 参考訳(メタデータ) (2020-05-16T17:04:24Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。