論文の概要: A Geometrically-Grounded Drive for MDL-Based Optimization in Deep Learning
- arxiv url: http://arxiv.org/abs/2603.12304v1
- Date: Thu, 12 Mar 2026 08:31:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.693687
- Title: A Geometrically-Grounded Drive for MDL-Based Optimization in Deep Learning
- Title(参考訳): 深層学習におけるMDLに基づく最適化のための幾何学的周辺ドライブ
- Authors: Ming Lei, Shufan Wu, Christophe Baehr,
- Abstract要約: 本稿では,MDL(Minimum Description Length)の原理を深層ニューラルネットワークのトレーニング力学に根本的に統合する,新しい最適化フレームワークを提案する。
我々は、数値安定性(Theoremrefthm:stability)と凸性仮定の下での指数収束(Theoremrefthm:convergence_rate)の保証とともに、$O(N log N)$ per-iteration complexity(Theoremrefthm:complexity)の実用的な計算効率のアルゴリズムを提供する。
この研究は、より自律的で、一般化可能で、解釈可能なAIへの原則化された道を提供する
- 参考スコア(独自算出の注目度): 3.2452107817263003
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper introduces a novel optimization framework that fundamentally integrates the Minimum Description Length (MDL) principle into the training dynamics of deep neural networks. Moving beyond its conventional role as a model selection criterion, we reformulate MDL as an active, adaptive driving force within the optimization process itself. The core of our method is a geometrically-grounded cognitive manifold whose evolution is governed by a \textit{coupled Ricci flow}, enriched with a novel \textit{MDL Drive} term derived from first principles. This drive, modulated by the task-loss gradient, creates a seamless harmony between data fidelity and model simplification, actively compressing the internal representation during training. We establish a comprehensive theoretical foundation, proving key properties including the monotonic decrease of description length (Theorem~\ref{thm:convergence}), a finite number of topological phase transitions via a geometric surgery protocol (Theorems~\ref{thm:surgery}, \ref{thm:ultimate_fate}), and the emergence of universal critical behavior (Theorem~\ref{thm:universality}). Furthermore, we provide a practical, computationally efficient algorithm with $O(N \log N)$ per-iteration complexity (Theorem~\ref{thm:complexity}), alongside guarantees for numerical stability (Theorem~\ref{thm:stability}) and exponential convergence under convexity assumptions (Theorem~\ref{thm:convergence_rate}). Empirical validation on synthetic regression and classification tasks confirms the theoretical predictions, demonstrating the algorithm's efficacy in achieving robust generalization and autonomous model simplification. This work provides a principled path toward more autonomous, generalizable, and interpretable AI systems by unifying geometric deep learning with information-theoretic principles.
- Abstract(参考訳): 本稿では,MDL(Minimum Description Length)の原理を深層ニューラルネットワークのトレーニング力学に根本的に統合する,新しい最適化フレームワークを提案する。
モデル選択基準としての従来の役割を超えて、最適化プロセス自体において、MDLをアクティブかつ適応的な駆動力として再編成する。
本手法のコアとなるのは, 第一原理から導出される新奇な「textit{MDL Drive}」項に富んだ「textit{coupled Ricci flow}」によって, 進化を制御した幾何学的基底の認知多様体である。
このドライブはタスクロス勾配によって変調され、データの忠実度とモデルの単純化の間のシームレスな調和を生成し、トレーニング中に内部表現を積極的に圧縮する。
我々は、記述長の単調的減少(Theorem~\ref{thm:convergence})、幾何学的手術プロトコル(Theorems〜\ref{thm:surgery}, \ref{thm:ultimate_fate})による位相遷移の有限個数、普遍的批判的行動の出現(Theorem〜\ref{thm:universality})などを含む、包括的な理論基盤を確立する。
さらに、数値安定性 (Theorem~\ref{thm:stability}) と凸性仮定 (Theorem〜\ref{thm:convergence_rate}) の下での指数収束を保証するとともに、$O(N \log N)$ per-iteration complexity (Theorem~\ref{thm:complexity}) の実用的で効率的なアルゴリズムを提供する。
合成回帰と分類タスクに関する実証的な検証は、アルゴリズムが堅牢な一般化と自律的モデルの単純化を達成するための有効性を証明し、理論的予測を裏付ける。
この研究は、幾何学的なディープラーニングと情報理論の原則を統一することにより、より自律的で、一般化可能で、解釈可能なAIシステムへの原則化されたパスを提供する。
関連論文リスト
- Why Self-Rewarding Works: Theoretical Guarantees for Iterative Alignment of Language Models [50.248686344277246]
自己回帰言語モデル(SRLM)は、外部からのフィードバックなしに反復的にアライメントを改善することに成功している。
本稿では,SRLMの厳密な理論的保証について述べる。
論文 参考訳(メタデータ) (2026-01-30T03:45:43Z) - Deep Unfolding: Recent Developments, Theory, and Design Guidelines [99.63555420898554]
この記事では、最適化アルゴリズムを構造化されたトレーニング可能なMLアーキテクチャに変換するフレームワークであるDeep Unfoldingのチュートリアルスタイルの概要を提供する。
推論と学習のための最適化の基礎を概観し、深層展開のための4つの代表的な設計パラダイムを導入し、その反復的な性質から生じる特有なトレーニングスキームについて議論する。
論文 参考訳(メタデータ) (2025-12-03T13:16:35Z) - Bridging Kolmogorov Complexity and Deep Learning: Asymptotically Optimal Description Length Objectives for Transformers [12.400454043294296]
本稿では,普遍性と最適記述長の目的に関する理論的概念を紹介する。
変動目的を構築・解析することで,そのような目的を抽出し,識別可能であることを示す。
より広義には、強力なアルゴリズム保証を持つ記述長目標を識別する理論的枠組みを提供することにより、より圧縮と一般化を達成するニューラルネットワークのトレーニングへの潜在的な道筋を概説する。
論文 参考訳(メタデータ) (2025-09-26T15:02:24Z) - Geometric Meta-Learning via Coupled Ricci Flow: Unifying Knowledge Representation and Quantum Entanglement [7.410691988131121]
本稿では,3つの基礎的革新を通じて,幾何学的フローと深層学習を統合した統一的な枠組みを確立する。
まず,パラメータ空間の幾何を動的に適用し,景観トポロジーを損なう熱力学的に結合したリッチフローを提案する。
第2に、曲率の爆発解析により、明示的な位相遷移閾値と臨界学習率を導出する。
第3に、ニューラルネットワークと共形場理論のAdS/CFT型ホログラフィック双対性(Theoremrefthm:ads)を確立する。
論文 参考訳(メタデータ) (2025-03-25T17:32:31Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - PAC-Chernoff Bounds: Understanding Generalization in the Interpolation Regime [6.645111950779666]
本稿では,補間器の完全密度を示す分布依存型PAC-Chernoff境界を提案する。
我々は、ある補間子がなぜ例外的な一般化を示すのかを示す統一的な理論的枠組みを提示する。
論文 参考訳(メタデータ) (2023-06-19T14:07:10Z) - Structured Optimal Variational Inference for Dynamic Latent Space Models [16.531262817315696]
動的ネットワークの潜在空間モデルについて検討し、その目的は、ペアの内積と潜在位置のインターセプトを推定することである。
後部推論と計算スケーラビリティのバランスをとるために、構造的平均場変動推論フレームワークを検討する。
論文 参考訳(メタデータ) (2022-09-29T22:10:42Z) - The Dynamics of Riemannian Robbins-Monro Algorithms [101.29301565229265]
本稿では,Robins と Monro のセミナル近似フレームワークを一般化し拡張するリーマンアルゴリズムの族を提案する。
ユークリッドのそれと比較すると、リーマンのアルゴリズムは多様体上の大域線型構造が欠如しているため、はるかに理解されていない。
ユークリッド・ロビンス=モンロスキームの既存の理論を反映し拡張するほぼ確実な収束結果の一般的なテンプレートを提供する。
論文 参考訳(メタデータ) (2022-06-14T12:30:11Z) - Fractal Structure and Generalization Properties of Stochastic
Optimization Algorithms [71.62575565990502]
最適化アルゴリズムの一般化誤差は、その一般化尺度の根底にあるフラクタル構造の複雑性'にバウンドできることを示す。
さらに、特定の問題(リニア/ロジスティックレグレッション、隠れ/層ニューラルネットワークなど)とアルゴリズムに対して、結果をさらに専門化します。
論文 参考訳(メタデータ) (2021-06-09T08:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。