論文の概要: Information-Theoretic Framework for Understanding Modern Machine-Learning
- arxiv url: http://arxiv.org/abs/2506.07661v2
- Date: Sun, 02 Nov 2025 07:12:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-04 18:19:02.748044
- Title: Information-Theoretic Framework for Understanding Modern Machine-Learning
- Title(参考訳): 現代機械学習理解のための情報理論フレームワーク
- Authors: Meir Feder, Ruediger Urbanke, Yaniv Fogel,
- Abstract要約: 本稿では,学習をログ損失下での普遍的な予測とみなす情報理論フレームワークを提案する。
成功するアーキテクチャは幅広い複雑さの範囲を持ち、高度に過度にパラメータ化されたモデルクラスでの学習を可能にしている、と我々は主張する。
この枠組みは、誘導バイアスの役割、降下勾配の効果、および平坦なミニマのような現象に光を当てている。
- 参考スコア(独自算出の注目度): 4.435094091999926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce an information-theoretic framework that views learning as universal prediction under log loss, characterized through regret bounds. Central to the framework is an effective notion of architecture-based model complexity, defined by the probability mass or volume of models in the vicinity of the data-generating process, or its projection on the model class. This volume is related to spectral properties of the expected Hessian or the Fisher Information Matrix, leading to tractable approximations. We argue that successful architectures possess a broad complexity range, enabling learning in highly over-parameterized model classes. The framework sheds light on the role of inductive biases, the effectiveness of stochastic gradient descent, and phenomena such as flat minima. It unifies online, batch, supervised, and generative settings, and applies across the stochastic-realizable and agnostic regimes. Moreover, it provides insights into the success of modern machine-learning architectures, such as deep neural networks and transformers, suggesting that their broad complexity range naturally arises from their layered structure. These insights open the door to the design of alternative architectures with potentially comparable or even superior performance.
- Abstract(参考訳): 本稿では,学習をログ損失下での普遍的な予測とみなす情報理論フレームワークを提案する。
フレームワークの中心は、データ生成プロセスの近傍にあるモデルの確率質量や体積、あるいはモデルクラスの射影によって定義されるアーキテクチャに基づくモデル複雑性の効果的な概念である。
この体積は、予想されるヘッセンあるいはフィッシャー情報行列のスペクトル特性と関連しており、抽出可能な近似に繋がる。
アーキテクチャの成功には広範囲の複雑さがあり、高度にパラメータ化されたモデルクラスでの学習を可能にすると我々は主張する。
この枠組みは、帰納バイアスの役割、確率的勾配降下の効果、および平坦なミニマのような現象に光を当てている。
オンライン、バッチ、教師あり、および生成的設定を統一し、確率的実現可能かつ不可知的な体制に適用される。
さらに、ディープニューラルネットワークやトランスフォーマーといったモダンな機械学習アーキテクチャの成功に関する洞察を提供し、その広範な複雑性範囲が階層構造から自然に生じることを示唆している。
これらの洞察は、潜在的に同等あるいは優れたパフォーマンスを持つ代替アーキテクチャの設計への扉を開く。
関連論文リスト
- StepVAR: Structure-Texture Guided Pruning for Visual Autoregressive Models [98.72926158261937]
本稿では,Visual AutoRegressive モデルのためのトレーニングフリートークン解析フレームワークを提案する。
我々は局所的なテクスチャの詳細を捉えるために軽量なハイパスフィルタを使用し、グローバルな構造情報を保存するために主成分分析(PCA)を活用している。
スパーストークンの下で有効な次世代の予測を維持するために,近接した特徴伝達戦略を導入する。
論文 参考訳(メタデータ) (2026-03-02T11:35:05Z) - Demystifying Data-Driven Probabilistic Medium-Range Weather Forecasting [63.8116386935854]
最先端の確率的スキルは、複雑なアーキテクチャ制約や専門的な訓練を必要としないことを実証する。
直下型遅延空間と履歴条件付きローカルプロジェクタを組み合わせることで,マルチスケールの大気力学を学習するためのスケーラブルなフレームワークを提案する。
我々のフレームワーク設計は確率的推定器の選択に頑健であり、補間、拡散モデル、CRPSに基づくアンサンブルトレーニングをシームレスにサポートする。
論文 参考訳(メタデータ) (2026-01-26T03:52:16Z) - Bigger Isn't Always Memorizing: Early Stopping Overparameterized Diffusion Models [51.03144354630136]
自然データ領域の一般化は、記憶の開始前に訓練中に徐々に達成される。
一般化対メモ化は、時間スケール間の競合として最もよく理解される。
この現象学は,確率論的文脈自由文法をランダムな規則で学習する拡散モデルにおいて復元されることを示す。
論文 参考訳(メタデータ) (2025-05-22T17:40:08Z) - A Classical View on Benign Overfitting: The Role of Sample Size [14.36840959836957]
モデルは任意に小さなトレーニングとテストエラーの両方を同時に達成する。
この振舞いはニューラルネットワークの特徴であり、しばしば低い(しかしゼロではない)トレーニングエラーを達成するが、それでもよく一般化される。
論文 参考訳(メタデータ) (2025-05-16T18:37:51Z) - Scaling Laws and Representation Learning in Simple Hierarchical Languages: Transformers vs. Convolutional Architectures [49.19753720526998]
合成データセット上でのニューラルネットワーク性能に関する理論的スケーリング法則を導出する。
局所性と重み共有によって生成過程の構造が整った畳み込みネットワークは、性能の高速化を享受できることを示す。
この発見は、ニューラルネットワークのスケーリング法則に基づくアーキテクチャ上のバイアスを明らかにし、モデルアーキテクチャとデータの統計的性質の間の相互作用によって表現学習がどのように形成されるかを強調している。
論文 参考訳(メタデータ) (2025-05-11T17:44:14Z) - Generalized Factor Neural Network Model for High-dimensional Regression [50.554377879576066]
複素・非線形・雑音に隠れた潜在低次元構造を持つ高次元データセットをモデル化する課題に取り組む。
我々のアプローチは、非パラメトリック回帰、因子モデル、高次元回帰のためのニューラルネットワークの概念のシームレスな統合を可能にする。
論文 参考訳(メタデータ) (2025-02-16T23:13:55Z) - Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。
3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文 参考訳(メタデータ) (2024-10-31T22:54:34Z) - Enhanced Transformer architecture for in-context learning of dynamical systems [0.3749861135832073]
本稿では,従来のメタモデリングフレームワークを3つの重要な革新を通じて強化する。
これらの修正の有効性は、Wiener-Hammerstein系クラスに焦点をあてた数値的な例を通して示される。
論文 参考訳(メタデータ) (2024-10-04T10:05:15Z) - Revisiting Optimism and Model Complexity in the Wake of Overparameterized Machine Learning [6.278498348219108]
まず、(有効)自由度という古典的な統計的概念を再解釈し、拡張することで、第一原理からモデルの複雑さを再考する。
我々は,概念的議論,理論,実験の混合を通じて,提案した複雑性尺度の有用性を実証する。
論文 参考訳(メタデータ) (2024-10-02T06:09:57Z) - Understanding the Double Descent Phenomenon in Deep Learning [49.1574468325115]
このチュートリアルは、古典的な統計学習の枠組みを設定し、二重降下現象を導入する。
いくつかの例を見て、セクション2では、二重降下において重要な役割を果たすと思われる帰納的バイアスを導入している。
第3節は2つの線形モデルで二重降下を探索し、最近の関連する研究から他の視点を提供する。
論文 参考訳(メタデータ) (2024-03-15T16:51:24Z) - The No Free Lunch Theorem, Kolmogorov Complexity, and the Role of Inductive Biases in Machine Learning [80.1018596899899]
ニューラルネットワークモデルは、Kolmogorov複雑性を使って形式化された、同じ好みを共有している、と我々は主張する。
実験の結果、事前訓練された言語モデルでも、低複雑さのシーケンスを生成するのが好まれることがわかった。
これらの観察は、ますます小さな機械学習モデルで異なるように見える問題を統一する深層学習の傾向を正当化する。
論文 参考訳(メタデータ) (2023-04-11T17:22:22Z) - The Neural Race Reduction: Dynamics of Abstraction in Gated Networks [12.130628846129973]
本稿では,情報フローの経路が学習力学に与える影響をスキーマ化するGated Deep Linear Networkフレームワークを紹介する。
正確な還元と、特定の場合において、学習のダイナミクスに対する正確な解が導出されます。
我々の研究は、ニューラルネットワークと学習に関する一般的な仮説を生み出し、より複雑なアーキテクチャの設計を理解するための数学的アプローチを提供する。
論文 参考訳(メタデータ) (2022-07-21T12:01:03Z) - More Than a Toy: Random Matrix Models Predict How Real-World Neural
Representations Generalize [94.70343385404203]
ほとんどの理論解析は、カーネル回帰においても定性的現象を捉えるには不十分であることがわかった。
古典的GCV推定器は局所確率行列法則が成立するたびに一般化リスクに収束することを示す。
この結果から, ランダム行列理論は, 実際には神経表現の性質を理解する上で重要である可能性が示唆された。
論文 参考訳(メタデータ) (2022-03-11T18:59:01Z) - A Farewell to the Bias-Variance Tradeoff? An Overview of the Theory of
Overparameterized Machine Learning [37.01683478234978]
機械学習(ML)の急速な進歩は、この分野の長年のドグマに挑戦する科学的な疑問を数多く提起している。
最も重要なライドルの1つは、パラメータ化されたモデルの優れた経験的一般化である。
論文 参考訳(メタデータ) (2021-09-06T10:48:40Z) - Evading the Simplicity Bias: Training a Diverse Set of Models Discovers
Solutions with Superior OOD Generalization [93.8373619657239]
SGDで訓練されたニューラルネットワークは最近、線形予測的特徴に優先的に依存することが示された。
この単純さバイアスは、分布外堅牢性(OOD)の欠如を説明することができる。
単純さのバイアスを軽減し,ood一般化を改善できることを実証する。
論文 参考訳(メタデータ) (2021-05-12T12:12:24Z) - XY Neural Networks [0.0]
XYモデルの非線形ブロックに基づいて,機械学習のための複雑な構造を構築する方法を示す。
最後のターゲットは、複雑なタスクを実行できるディープラーニングアーキテクチャを再現することである。
論文 参考訳(メタデータ) (2021-03-31T17:47:10Z) - Provable Benefits of Overparameterization in Model Compression: From
Double Descent to Pruning Neural Networks [38.153825455980645]
最近の実証的な証拠は、オーバライゼーションの実践が大きなモデルのトレーニングに利益をもたらすだけでなく、軽量モデルの構築を支援することも示している。
本稿では,モデル刈り込みの高次元ツールセットを理論的に特徴付けることにより,これらの経験的発見に光を当てる。
もっとも情報に富む特徴の位置が分かっていても、我々は大きなモデルに適合し、刈り取るのがよい体制を解析的に特定する。
論文 参考訳(メタデータ) (2020-12-16T05:13:30Z) - Generalization and Memorization: The Bias Potential Model [9.975163460952045]
生成モデルと密度推定器は、関数の学習モデルとは全く異なる振る舞いをする。
バイアスポテンシャルモデルでは、早期停止が採用された場合、次元非依存の一般化精度が達成可能であることを示す。
長期的には、モデルはサンプルを記憶するか、分岐させる。
論文 参考訳(メタデータ) (2020-11-29T04:04:54Z) - S2RMs: Spatially Structured Recurrent Modules [105.0377129434636]
モジュール構造とテンポラル構造の両方を同時に活用できる動的構造を利用するための一歩を踏み出します。
我々のモデルは利用可能なビューの数に対して堅牢であり、追加のトレーニングなしで新しいタスクに一般化できる。
論文 参考訳(メタデータ) (2020-07-13T17:44:30Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。