Fugu-MT 論文翻訳(概要): Cross-Entropy Is All You Need To Invert the Data Generating Process

論文の概要: Cross-Entropy Is All You Need To Invert the Data Generating Process

arxiv url: http://arxiv.org/abs/2410.21869v1
Date: Tue, 29 Oct 2024 09:03:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:41.775331
Title: Cross-Entropy Is All You Need To Invert the Data Generating Process
Title（参考訳）: クロスエントロピーは、データ生成プロセスの反転に必要なもの
Authors: Patrik Reizinger, Alice Bizeul, Attila Juhos, Julia E. Vogt, Randall Balestriero, Wieland Brendel, David Klindt,
Abstract要約: 経験的現象は、教師付きモデルが線形な方法で変化の解釈可能な要因を学習できることを示唆している。近年の自己教師型学習の進歩により,データ生成過程を反転させることで潜在構造を復元できることが示されている。標準分類タスクにおいても,モデルが線形変換までの変動の基底構造因子の表現を学習することが証明された。
参考スコア（独自算出の注目度）: 29.94396019742267
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Supervised learning has become a cornerstone of modern machine learning, yet a comprehensive theory explaining its effectiveness remains elusive. Empirical phenomena, such as neural analogy-making and the linear representation hypothesis, suggest that supervised models can learn interpretable factors of variation in a linear fashion. Recent advances in self-supervised learning, particularly nonlinear Independent Component Analysis, have shown that these methods can recover latent structures by inverting the data generating process. We extend these identifiability results to parametric instance discrimination, then show how insights transfer to the ubiquitous setting of supervised learning with cross-entropy minimization. We prove that even in standard classification tasks, models learn representations of ground-truth factors of variation up to a linear transformation. We corroborate our theoretical contribution with a series of empirical studies. First, using simulated data matching our theoretical assumptions, we demonstrate successful disentanglement of latent factors. Second, we show that on DisLib, a widely-used disentanglement benchmark, simple classification tasks recover latent structures up to linear transformations. Finally, we reveal that models trained on ImageNet encode representations that permit linear decoding of proxy factors of variation. Together, our theoretical findings and experiments offer a compelling explanation for recent observations of linear representations, such as superposition in neural networks. This work takes a significant step toward a cohesive theory that accounts for the unreasonable effectiveness of supervised deep learning.
Abstract（参考訳）: 教師付き学習は現代の機械学習の基盤となっているが、その効果を説明する包括的な理論はいまだ解明されていない。ニューラルアナログ生成や線形表現仮説のような経験的現象は、教師付きモデルが線形な方法で変化の解釈可能な要因を学習できることを示唆している。近年の自己教師型学習,特に非線形独立成分分析の進歩により,データ生成過程を反転させることで潜在構造を復元できることが示されている。これらの識別可能性の結果をパラメトリックなインスタンス識別に拡張し、クロスエントロピーの最小化による教師付き学習のユビキタスな設定への洞察の伝達方法を示す。標準分類タスクにおいても、モデルが線形変換までの変動の基底構造因子の表現を学習することが証明される。我々は、一連の経験的研究で理論的な貢献を裏付ける。まず、我々の理論的仮定と一致するシミュレーションデータを用いて、潜伏因子の非絡み合いをうまく証明する。第2に、広く使われているアンタングル化ベンチマークであるDisLibでは、単純な分類タスクが線形変換まで遅延構造を復元することを示した。最後に、画像ネットで訓練されたモデルが、変動のプロキシ因子の線形復号化を可能にすることを明らかにした。我々の理論的な発見と実験は、ニューラルネットワークにおける重ね合わせのような最近の線形表現の観察について、説得力のある説明を提供する。この研究は、教師付き深層学習の理にかなわない効果を考慮に入れた結束理論に向けて大きな一歩を踏み出した。

関連論文リスト

The emergence of sparse attention: impact of data distribution and benefits of repetition [14.652502263025882]
本研究では,トランスフォーマーにおける重要かつ頻繁な注意パターンであるスパースアテンションのトレーニングに伴う出現について検討した。玩具モデルの理論的解析と線形回帰変種を訓練した小型変圧器の経験的観察を組み合わせることで,機械的スパークアテンションの出現を明らかにする。我々の研究は、データ分布とモデル設計が1つの形態の台頭の背後にある学習力学にどのように影響するかを理解するための、シンプルで理論的に基礎的なフレームワークを提供する。
論文参考訳（メタデータ） (2025-05-23T13:14:02Z)
Exact Learning Dynamics of In-Context Learning in Linear Transformers and Its Application to Non-Linear Transformers [1.7034813545878589]
トランスフォーマーモデルは、顕著なインコンテキスト学習(ICL)を示す我々の研究は、ICLの正確な動的モデルを提供し、複雑なトランスフォーマートレーニングを解析するための理論的基盤ツールを提供する。
論文参考訳（メタデータ） (2025-04-17T13:05:33Z)
I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? [79.01538178959726]
大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。本稿では,潜在離散変数として表される人間の解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
論文参考訳（メタデータ） (2025-03-12T01:21:17Z)
Bilinear Convolution Decomposition for Causal RL Interpretability [0.0]
強化学習(RL)モデルを解釈する試みは、しばしば帰属や探究のような高度な技術に依存している。本研究では、畳み込みニューラルネットワーク(ConvNets)の非線形性を双線型変種に置き換え、これらの制限に対処可能なモデルのクラスを作成することを提案する。モデルフリー強化学習環境では,バイリニアモデルの変形が相容れないことを示し,ProcGen環境上での並べ比較を行う。
論文参考訳（メタデータ） (2024-12-01T19:32:04Z)
Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。 3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文参考訳（メタデータ） (2024-10-31T22:54:34Z)
Toward Understanding In-context vs. In-weight Learning [50.24035812301655]
本研究は,文脈内学習の出現と消失を引き起こす簡易な分布特性を同定する。そして、この研究を完全な大規模言語モデルに拡張し、自然言語プロンプトの様々なコレクションの微調整が、文脈内および重み付き学習の振る舞いをいかに引き出すかを示す。
論文参考訳（メタデータ） (2024-10-30T14:09:00Z)
Geometric Understanding of Discriminability and Transferability for Visual Domain Adaptation [27.326817457760725]
教師なしドメイン適応(UDA)のための不変表現学習は、コンピュータビジョンとパターン認識コミュニティにおいて大きな進歩を遂げている。近年,移動可能性と識別可能性との実証的な関係が注目されている。本研究では,幾何学的観点から,伝達可能性と識別可能性の本質を体系的に分析する。
論文参考訳（メタデータ） (2024-06-24T13:31:08Z)
Learning Discrete Concepts in Latent Hierarchical Models [73.01229236386148]
自然の高次元データから学習する概念は、ヒューマンアライメントと解釈可能な機械学習モデルの構築の可能性を秘めている。我々は概念を階層的因果モデルを通して関連付けられた離散潜在因果変数として定式化する。我々は、理論的な主張を合成データ実験で裏付ける。
論文参考訳（メタデータ） (2024-06-01T18:01:03Z)
Minimum-Norm Interpolation Under Covariate Shift [14.863831433459902]
高次元線形回帰に関する非分布研究は、テキシトベニンオーバーフィッティング(textitbenign overfitting)として知られる現象の同定につながった。本稿では,移動学習環境における線形補間器の非漸近的過剰リスク境界を初めて証明する。
論文参考訳（メタデータ） (2024-03-31T01:41:57Z)
Beyond DAGs: A Latent Partial Causal Model for Multimodal Learning [80.44084021062105]
本稿では,非方向エッジで連結された2つの潜在結合変数を特徴とする,多モーダルデータに対する新しい潜在部分因果モデルを提案する。特定の統計的仮定の下では、多モーダル・コントラッシブ・ラーニングによって学習された表現が、自明な変換までの潜在結合変数に対応することを示す。事前トレーニングされたCLIPモデルの実験は、非絡み合った表現を具現化し、数ショットの学習を可能にし、さまざまな現実世界のデータセットにわたるドメインの一般化を改善する。
論文参考訳（メタデータ） (2024-02-09T07:18:06Z)
Flow Factorized Representation Learning [109.51947536586677]
本稿では、異なる入力変換を定義する潜在確率パスの別個のセットを規定する生成モデルを提案する。本モデルは,ほぼ同変モデルに近づきながら,標準表現学習ベンチマークにおいて高い確率を達成することを示す。
論文参考訳（メタデータ） (2023-09-22T20:15:37Z)
A Theoretical Study of Inductive Biases in Contrastive Learning [32.98250585760665]
モデルクラスから派生した帰納的バイアスの効果を取り入れた,自己指導型学習に関する最初の理論的分析を行った。モデルが限られたキャパシティを持つ場合、コントラスト表現はモデルアーキテクチャと互換性のある特定のクラスタリング構造を復元することを示す。
論文参考訳（メタデータ） (2022-11-27T01:53:29Z)
A Scaling Law for Synthetic-to-Real Transfer: A Measure of Pre-Training [52.93808218720784]
合成から現実への変換学習は,実タスクのための合成画像と接地真実アノテーションを用いた事前学習を行うフレームワークである。合成画像はデータの不足を克服するが、事前訓練されたモデルで微調整性能がどのようにスケールするかは定かではない。我々は、合成事前学習データの様々なタスク、モデル、複雑さにおける学習曲線を一貫して記述する、単純で一般的なスケーリング法則を観察する。
論文参考訳（メタデータ） (2021-08-25T02:29:28Z)
Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文参考訳（メタデータ） (2020-11-18T18:52:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。