論文の概要: Generalization error bounds for iterative learning algorithms with
bounded updates
- arxiv url: http://arxiv.org/abs/2309.05077v2
- Date: Wed, 13 Sep 2023 12:12:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-14 11:24:54.176336
- Title: Generalization error bounds for iterative learning algorithms with
bounded updates
- Title(参考訳): 有界更新を伴う反復学習アルゴリズムの一般化誤差境界
- Authors: Jingwen Fu and Nanning Zheng
- Abstract要約: 本稿では,非大規模損失関数に対する有界更新を伴う反復学習アルゴリズムの特性について検討する。
我々の重要な貢献は、これらのアルゴリズムの一般化のための新しいバウンダリであり、以前の作業の範囲を超えて拡張されている。
- 参考スコア(独自算出の注目度): 41.87646434714452
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper explores the generalization characteristics of iterative learning
algorithms with bounded updates for non-convex loss functions, employing
information-theoretic techniques. Our key contribution is a novel bound for the
generalization error of these algorithms with bounded updates, extending beyond
the scope of previous works that only focused on Stochastic Gradient Descent
(SGD). Our approach introduces two main novelties: 1) we reformulate the mutual
information as the uncertainty of updates, providing a new perspective, and 2)
instead of using the chaining rule of mutual information, we employ a variance
decomposition technique to decompose information across iterations, allowing
for a simpler surrogate process. We analyze our generalization bound under
various settings and demonstrate improved bounds when the model dimension
increases at the same rate as the number of training data samples. To bridge
the gap between theory and practice, we also examine the previously observed
scaling behavior in large language models. Ultimately, our work takes a further
step for developing practical generalization theories.
- Abstract(参考訳): 本稿では,非凸損失関数の有界更新による反復学習アルゴリズムの一般化特性について,情報理論的手法を用いて検討する。
我々の重要な貢献は、SGD(Stochastic Gradient Descent)にのみ焦点をあてた以前の研究の範囲を超えて、境界更新を伴うこれらのアルゴリズムの一般化エラーに対する新しいバウンダリである。
私たちのアプローチは2つの大きなノベルティを導入します。
1) 相互情報を更新の不確実性として改定し、新たな視点を提供する。
2) 相互情報の連鎖規則を使う代わりに, 分散分解法を用いて反復的に情報を分解し, より単純な代理プロセスを実現する。
様々な設定下での一般化を解析し,トレーニングデータサンプル数と同じ速度でモデル次元が増加すると境界が改善されることを示す。
理論と実践のギャップを埋めるため,前述した大規模言語モデルのスケーリング挙動についても検討した。
究極的には、我々の研究は実用的な一般化理論を開発するためのさらなる一歩を踏み出します。
関連論文リスト
- An Information-Theoretic Approach to Generalization Theory [27.87324770020133]
学習アルゴリズムと学習データ間の依存度を定量化する情報理論境界を解析する。
一定のプライバシーパラメータを持つ場合であっても,最大リークが制限されたアルゴリズムにより一般化が保証されることを示す。
論文 参考訳(メタデータ) (2024-08-20T10:08:21Z) - Zero-Shot Generalization during Instruction Tuning: Insights from Similarity and Granularity [84.12126298229866]
命令チューニング中のゼロショット一般化は非常に早い時期に行われることを示す。
また、「タスク」の制約を伴わずに、命令チューニング中に非常によく似た、きめ細かなトレーニングデータに遭遇することで、より一般化できることを示す。
インストラクションチューニング中のゼロショット一般化は、インスタンスレベルでのトレーニングとテストデータ間の類似性に基づく一般化の形式であることを示す。
論文 参考訳(メタデータ) (2024-06-17T16:40:21Z) - Minimum Description Length and Generalization Guarantees for
Representation Learning [16.2444595840653]
本稿では,表現学習アルゴリズムの一般化誤差の上限を導出するフレームワークを提案する。
エンコーダの入力と表現の間の相互情報ではなく、我々の新しい境界は「マルチレター」相対エントロピーを含む。
著者たちの最もよく知る限り、確立された一般化境界は、情報ボトルネック型エンコーダと表現学習のための第一種である。
論文 参考訳(メタデータ) (2024-02-05T18:12:28Z) - Real-World Compositional Generalization with Disentangled
Sequence-to-Sequence Learning [81.24269148865555]
最近提案されたDunangled sequence-to-sequence model (Dangle)は、有望な一般化能力を示している。
このモデルに2つの重要な変更を加え、より不整合表現を奨励し、その計算とメモリ効率を改善する。
具体的には、各タイミングでソースキーと値を適応的に再エンコードするのではなく、表現をアンタングルし、キーを定期的に再エンコードする。
論文 参考訳(メタデータ) (2022-12-12T15:40:30Z) - On Leave-One-Out Conditional Mutual Information For Generalization [122.2734338600665]
残余条件付き相互情報(loo-CMI)の新しい尺度に基づく教師付き学習アルゴリズムのための情報理論の一般化境界を導出する。
他のCMI境界とは対照的に、我々のloo-CMI境界は容易に計算でき、古典的なout-out-out-cross-validationのような他の概念と関連して解釈できる。
ディープラーニングのシナリオにおいて予測された一般化ギャップを評価することにより,境界の質を実証的に検証する。
論文 参考訳(メタデータ) (2022-07-01T17:58:29Z) - Information-theoretic generalization bounds for black-box learning
algorithms [46.44597430985965]
我々は,学習アルゴリズムの出力ではなく,予測に含まれる情報に基づいて,教師付き学習アルゴリズムに対する情報理論の一般化境界を導出する。
本研究では,ディープラーニングの実践シナリオにおいて,提案した境界が一般化ギャップに密接に従っていることを示す。
論文 参考訳(メタデータ) (2021-10-04T17:28:41Z) - Information Complexity and Generalization Bounds [0.0]
ランダム化学習アルゴリズムにおけるPAC-Bayesianと相互情報に基づく上限の統一画像を示す。
本稿では,ニューラルネットワーク,すなわちEntropy-とPAC-Bayes-SGDの2つの実践例について論じる。
論文 参考訳(メタデータ) (2021-05-04T20:37:57Z) - Information-Theoretic Bounds on the Moments of the Generalization Error
of Learning Algorithms [19.186110989897738]
一般化エラー境界は、機械学習モデルの性能を理解するために重要である。
本稿では,機械学習モデルの一般化動作を,一般化誤差モーメントに対する特徴付け(バウンド)に基づいてより洗練された分析を行う。
論文 参考訳(メタデータ) (2021-02-03T11:38:00Z) - Information Theoretic Meta Learning with Gaussian Processes [74.54485310507336]
情報理論の概念,すなわち相互情報と情報のボトルネックを用いてメタ学習を定式化する。
相互情報に対する変分近似を用いることで、メタ学習のための汎用的かつトラクタブルな枠組みを導出する。
論文 参考訳(メタデータ) (2020-09-07T16:47:30Z) - Semi-Supervised Learning with Meta-Gradient [123.26748223837802]
半教師付き学習における簡単なメタ学習アルゴリズムを提案する。
その結果,提案アルゴリズムは最先端の手法に対して良好に動作することがわかった。
論文 参考訳(メタデータ) (2020-07-08T08:48:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。