論文の概要: Bridging Kolmogorov Complexity and Deep Learning: Asymptotically Optimal Description Length Objectives for Transformers
- arxiv url: http://arxiv.org/abs/2509.22445v2
- Date: Mon, 29 Sep 2025 17:16:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 14:13:47.668445
- Title: Bridging Kolmogorov Complexity and Deep Learning: Asymptotically Optimal Description Length Objectives for Transformers
- Title(参考訳): コルモゴロフ複雑性のブリッジ化と深層学習 : 変圧器の漸近的最適記述長対象
- Authors: Peter Shaw, James Cohan, Jacob Eisenstein, Kristina Toutanova,
- Abstract要約: 本稿では,普遍性と最適記述長の目的に関する理論的概念を紹介する。
変動目的を構築・解析することで,そのような目的を抽出し,識別可能であることを示す。
より広義には、強力なアルゴリズム保証を持つ記述長目標を識別する理論的枠組みを提供することにより、より圧縮と一般化を達成するニューラルネットワークのトレーニングへの潜在的な道筋を概説する。
- 参考スコア(独自算出の注目度): 12.400454043294296
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Minimum Description Length (MDL) principle offers a formal framework for applying Occam's razor in machine learning. However, its application to neural networks such as Transformers is challenging due to the lack of a principled, universal measure for model complexity. This paper introduces the theoretical notion of asymptotically optimal description length objectives, grounded in the theory of Kolmogorov complexity. We establish that a minimizer of such an objective achieves optimal compression, for any dataset, up to an additive constant, in the limit as model resource bounds increase. We prove that asymptotically optimal objectives exist for Transformers, building on a new demonstration of their computational universality. We further show that such objectives can be tractable and differentiable by constructing and analyzing a variational objective based on an adaptive Gaussian mixture prior. Our empirical analysis shows that this variational objective selects for a low-complexity solution with strong generalization on an algorithmic task, but standard optimizers fail to find such solutions from a random initialization, highlighting key optimization challenges. More broadly, by providing a theoretical framework for identifying description length objectives with strong asymptotic guarantees, we outline a potential path towards training neural networks that achieve greater compression and generalization.
- Abstract(参考訳): MDL(Minimum Description Length)原則は、オッカムのカミソリを機械学習に適用するための正式なフレームワークを提供する。
しかし、Transformersのようなニューラルネットワークへの応用は、モデル複雑さに対する原則的、普遍的な尺度が欠如しているため、難しい。
本稿では,コルモゴロフ複雑性の理論に基づく漸近的最適記述長目標の理論的概念を紹介する。
このような目的の最小化が任意のデータセットに対して、モデルリソース境界が増加する限り、任意の加算定数まで、最適な圧縮を達成することを確立します。
本稿では,トランスフォーマーに漸近的に最適な目的が存在することを証明し,その計算的普遍性の新たな実証に基づいて構築する。
さらに、適応ガウス混合に基づいて変動対象を構築し解析することにより、そのような目的を抽出可能かつ微分可能であることを示す。
我々の経験的分析では、この変動目的はアルゴリズム的タスクを強く一般化した低複雑さの解を選択するが、標準最適化者はランダムな初期化からそのような解を見つけることができず、重要な最適化課題を浮き彫りにしている。
より広義には、強い漸近的保証を持つ記述長目標を識別する理論的枠組みを提供することにより、より圧縮と一般化を達成するニューラルネットワークのトレーニングへの潜在的道筋を概説する。
関連論文リスト
- Understanding Inverse Reinforcement Learning under Overparameterization: Non-Asymptotic Analysis and Global Optimality [52.906438147288256]
我々のアルゴリズムは,特定のニューラルネットワーク構造の下で,最適報酬とポリシーを識別できることが示される。
これは、国際的最適性を確実に達成する非漸近収束保証を持つ最初のIRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-03-22T21:16:08Z) - Pseudo-Bayesian Optimization [7.556071491014536]
ブラックボックス最適化の収束を保証するために最小限の要件を課す公理的枠組みについて検討する。
我々は、単純な局所回帰と、不確実性を定量化するために適切な「ランダム化事前」構造を用いることが、収束を保証するだけでなく、常に最先端のベンチマークよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-15T07:55:28Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Structured Optimal Variational Inference for Dynamic Latent Space Models [16.531262817315696]
動的ネットワークの潜在空間モデルについて検討し、その目的は、ペアの内積と潜在位置のインターセプトを推定することである。
後部推論と計算スケーラビリティのバランスをとるために、構造的平均場変動推論フレームワークを検討する。
論文 参考訳(メタデータ) (2022-09-29T22:10:42Z) - Efficient Methods for Structured Nonconvex-Nonconcave Min-Max
Optimization [98.0595480384208]
定常点に収束する一般化外空間を提案する。
このアルゴリズムは一般の$p$ノルド空間だけでなく、一般の$p$次元ベクトル空間にも適用される。
論文 参考訳(メタデータ) (2020-10-31T21:35:42Z) - Efficient and Sparse Neural Networks by Pruning Weights in a
Multiobjective Learning Approach [0.0]
本稿では、予測精度とネットワーク複雑性を2つの個別目的関数として扱うことにより、ニューラルネットワークのトレーニングに関する多目的視点を提案する。
模範的畳み込みニューラルネットワークの予備的な数値結果から、ニューラルネットワークの複雑性の大幅な低減と精度の低下が可能であることが確認された。
論文 参考訳(メタデータ) (2020-08-31T13:28:03Z) - Tackling the Objective Inconsistency Problem in Heterogeneous Federated
Optimization [93.78811018928583]
本稿では、フェデレートされた異種最適化アルゴリズムの収束性を分析するためのフレームワークを提供する。
我々は,高速な誤差収束を保ちながら,客観的な矛盾を解消する正規化平均化手法であるFedNovaを提案する。
論文 参考訳(メタデータ) (2020-07-15T05:01:23Z) - Neural Control Variates [71.42768823631918]
ニューラルネットワークの集合が、積分のよい近似を見つけるという課題に直面していることを示す。
理論的に最適な分散最小化損失関数を導出し、実際に安定したオンライントレーニングを行うための代替の複合損失を提案する。
具体的には、学習した光場近似が高次バウンスに十分な品質であることを示し、誤差補正を省略し、無視可能な可視バイアスのコストでノイズを劇的に低減できることを示した。
論文 参考訳(メタデータ) (2020-06-02T11:17:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。