論文の概要: Cross-Entropy Is All You Need To Invert the Data Generating Process
- arxiv url: http://arxiv.org/abs/2410.21869v2
- Date: Mon, 04 Nov 2024 09:36:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:51:43.815011
- Title: Cross-Entropy Is All You Need To Invert the Data Generating Process
- Title(参考訳): クロスエントロピーは、データ生成プロセスの反転に必要なもの
- Authors: Patrik Reizinger, Alice Bizeul, Attila Juhos, Julia E. Vogt, Randall Balestriero, Wieland Brendel, David Klindt,
- Abstract要約: 経験的現象は、教師付きモデルが線形な方法で変化の解釈可能な要因を学習できることを示唆している。
近年の自己教師型学習の進歩により,データ生成過程を反転させることで潜在構造を復元できることが示されている。
標準分類タスクにおいても,モデルが線形変換までの変動の基底構造因子の表現を学習することが証明された。
- 参考スコア(独自算出の注目度): 29.94396019742267
- License:
- Abstract: Supervised learning has become a cornerstone of modern machine learning, yet a comprehensive theory explaining its effectiveness remains elusive. Empirical phenomena, such as neural analogy-making and the linear representation hypothesis, suggest that supervised models can learn interpretable factors of variation in a linear fashion. Recent advances in self-supervised learning, particularly nonlinear Independent Component Analysis, have shown that these methods can recover latent structures by inverting the data generating process. We extend these identifiability results to parametric instance discrimination, then show how insights transfer to the ubiquitous setting of supervised learning with cross-entropy minimization. We prove that even in standard classification tasks, models learn representations of ground-truth factors of variation up to a linear transformation. We corroborate our theoretical contribution with a series of empirical studies. First, using simulated data matching our theoretical assumptions, we demonstrate successful disentanglement of latent factors. Second, we show that on DisLib, a widely-used disentanglement benchmark, simple classification tasks recover latent structures up to linear transformations. Finally, we reveal that models trained on ImageNet encode representations that permit linear decoding of proxy factors of variation. Together, our theoretical findings and experiments offer a compelling explanation for recent observations of linear representations, such as superposition in neural networks. This work takes a significant step toward a cohesive theory that accounts for the unreasonable effectiveness of supervised deep learning.
- Abstract(参考訳): 教師付き学習は現代の機械学習の基盤となっているが、その効果を説明する包括的な理論はいまだ解明されていない。
ニューラルアナログ生成や線形表現仮説のような経験的現象は、教師付きモデルが線形な方法で変化の解釈可能な要因を学習できることを示唆している。
近年の自己教師型学習,特に非線形独立成分分析の進歩により,データ生成過程を反転させることで潜在構造を復元できることが示されている。
これらの識別可能性の結果をパラメトリックなインスタンス識別に拡張し、クロスエントロピーの最小化による教師付き学習のユビキタスな設定への洞察の伝達方法を示す。
標準分類タスクにおいても、モデルが線形変換までの変動の基底構造因子の表現を学習することが証明される。
我々は、一連の経験的研究で理論的な貢献を裏付ける。
まず、我々の理論的仮定と一致するシミュレーションデータを用いて、潜伏因子の非絡み合いをうまく証明する。
第2に、広く使われているアンタングル化ベンチマークであるDisLibでは、単純な分類タスクが線形変換まで遅延構造を復元することを示した。
最後に、画像ネットで訓練されたモデルが、変動のプロキシ因子の線形復号化を可能にすることを明らかにした。
我々の理論的な発見と実験は、ニューラルネットワークにおける重ね合わせのような最近の線形表現の観察について、説得力のある説明を提供する。
この研究は、教師付き深層学習の理にかなわない効果を考慮に入れた結束理論に向けて大きな一歩を踏み出した。
関連論文リスト
- Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。
3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文 参考訳(メタデータ) (2024-10-31T22:54:34Z) - Toward Understanding In-context vs. In-weight Learning [50.24035812301655]
本研究は,文脈内学習の出現と消失を引き起こす簡易な分布特性を同定する。
そして、この研究を完全な大規模言語モデルに拡張し、自然言語プロンプトの様々なコレクションの微調整が、文脈内および重み付き学習の振る舞いをいかに引き出すかを示す。
論文 参考訳(メタデータ) (2024-10-30T14:09:00Z) - Geometric Understanding of Discriminability and Transferability for Visual Domain Adaptation [27.326817457760725]
教師なしドメイン適応(UDA)のための不変表現学習は、コンピュータビジョンとパターン認識コミュニティにおいて大きな進歩を遂げている。
近年,移動可能性と識別可能性との実証的な関係が注目されている。
本研究では,幾何学的観点から,伝達可能性と識別可能性の本質を体系的に分析する。
論文 参考訳(メタデータ) (2024-06-24T13:31:08Z) - Learning Discrete Concepts in Latent Hierarchical Models [73.01229236386148]
自然の高次元データから学習する概念は、ヒューマンアライメントと解釈可能な機械学習モデルの構築の可能性を秘めている。
我々は概念を階層的因果モデルを通して関連付けられた離散潜在因果変数として定式化する。
我々は、理論的な主張を合成データ実験で裏付ける。
論文 参考訳(メタデータ) (2024-06-01T18:01:03Z) - Minimum-Norm Interpolation Under Covariate Shift [14.863831433459902]
高次元線形回帰に関する非分布研究は、テキシトベニンオーバーフィッティング(textitbenign overfitting)として知られる現象の同定につながった。
本稿では,移動学習環境における線形補間器の非漸近的過剰リスク境界を初めて証明する。
論文 参考訳(メタデータ) (2024-03-31T01:41:57Z) - Flow Factorized Representation Learning [109.51947536586677]
本稿では、異なる入力変換を定義する潜在確率パスの別個のセットを規定する生成モデルを提案する。
本モデルは,ほぼ同変モデルに近づきながら,標準表現学習ベンチマークにおいて高い確率を達成することを示す。
論文 参考訳(メタデータ) (2023-09-22T20:15:37Z) - A Theoretical Study of Inductive Biases in Contrastive Learning [32.98250585760665]
モデルクラスから派生した帰納的バイアスの効果を取り入れた,自己指導型学習に関する最初の理論的分析を行った。
モデルが限られたキャパシティを持つ場合、コントラスト表現はモデルアーキテクチャと互換性のある特定のクラスタリング構造を復元することを示す。
論文 参考訳(メタデータ) (2022-11-27T01:53:29Z) - A Scaling Law for Synthetic-to-Real Transfer: A Measure of Pre-Training [52.93808218720784]
合成から現実への変換学習は,実タスクのための合成画像と接地真実アノテーションを用いた事前学習を行うフレームワークである。
合成画像はデータの不足を克服するが、事前訓練されたモデルで微調整性能がどのようにスケールするかは定かではない。
我々は、合成事前学習データの様々なタスク、モデル、複雑さにおける学習曲線を一貫して記述する、単純で一般的なスケーリング法則を観察する。
論文 参考訳(メタデータ) (2021-08-25T02:29:28Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。