論文の概要: Proof of a perfect platonic representation hypothesis
- arxiv url: http://arxiv.org/abs/2507.01098v1
- Date: Tue, 01 Jul 2025 18:01:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.847862
- Title: Proof of a perfect platonic representation hypothesis
- Title(参考訳): 完全プラトニック表現仮説の証明
- Authors: Liu Ziyin, Isaac Chuang,
- Abstract要約: SGDでトレーニングされた場合、幅と深さの異なる2つのEDLNがPerfectly Platonicとなる。
プラトン表現の出現は、プログレッシブ・シャープニングの出現と同じ理由による。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this note, we elaborate on and explain in detail the proof given by Ziyin et al. (2025) of the "perfect" Platonic Representation Hypothesis (PRH) for the embedded deep linear network model (EDLN). We show that if trained with SGD, two EDLNs with different widths and depths and trained on different data will become Perfectly Platonic, meaning that every possible pair of layers will learn the same representation up to a rotation. Because most of the global minima of the loss function are not Platonic, that SGD only finds the perfectly Platonic solution is rather extraordinary. The proof also suggests at least six ways the PRH can be broken. We also show that in the EDLN model, the emergence of the Platonic representations is due to the same reason as the emergence of progressive sharpening. This implies that these two seemingly unrelated phenomena in deep learning can, surprisingly, have a common cause. Overall, the theory and proof highlight the importance of understanding emergent "entropic forces" due to the irreversibility of SGD training and their role in representation learning. The goal of this note is to be instructive and avoid lengthy technical details.
- Abstract(参考訳): 本稿では,組込み深層線形ネットワークモデル(EDLN)に対する「完全」プラトン表現仮説(PRH)のZiyin et al (2025)による証明について詳しく説明する。
SGDでトレーニングされた場合、異なる幅と深さを持つ2つのEDLNがPerfectly Platonicとなる。
損失関数のグローバルなミニマのほとんどはプラトンではないので、SGDは完全なプラトン解しか見つからない。
この証明はまた、PRHが壊れる少なくとも6つの方法を示している。
また、EDLNモデルでは、プラトン表現の出現はプログレッシブ・シャープニングの出現と同じ理由によるものであることが示されている。
これは、深層学習におけるこれら2つの無関係な現象が、驚くべきことに、共通の原因を持つことを示唆している。
全体として、この理論と証明は、SGDトレーニングの不可逆性と表現学習におけるそれらの役割により、創発的「エントロピー力」を理解することの重要性を強調している。
このノートの目標は、教育的であり、長い技術的な詳細を避けることである。
関連論文リスト
- A Theory of Machine Understanding via the Minimum Description Length Principle [1.3735277588793995]
エンド・ツー・エンドの学習モデルでは、学習内容が"理解"できないことを示す。
言い換えれば、説明可能な表現は、単に深いネットワークを最小記述長の原理に従うようにすることで、自己監督的な方法で現れる。
この研究は完全に理論的であり、自己管理型説明可能なAIに向けた将来の研究を刺激することを目的としている。
論文 参考訳(メタデータ) (2025-04-01T03:37:18Z) - How Do LLMs Perform Two-Hop Reasoning in Context? [76.79936191530784]
2-ホップ推論(英: two-hop reasoning)とは、2つの論理的なステップで結論を導く過程を指す。
近年の大規模言語モデル(LLM)の進歩にもかかわらず、単純な2つのホップ推論の問題を解くのに失敗することは驚くほどある。
我々は、合成二脚推論タスクでスクラッチから3層トランスフォーマーを訓練し、内部情報の流れをリバースエンジニアリングする。
論文 参考訳(メタデータ) (2025-02-19T17:46:30Z) - Neural Causal Abstractions [63.21695740637627]
我々は、変数とそのドメインをクラスタリングすることで、因果抽象化の新しいファミリーを開発する。
本稿では,ニューラルネットワークモデルを用いて,そのような抽象化が現実的に学習可能であることを示す。
本実験は、画像データを含む高次元設定に因果推論をスケールする方法を記述し、その理論を支持する。
論文 参考訳(メタデータ) (2024-01-05T02:00:27Z) - Unraveling the Enigma of Double Descent: An In-depth Analysis through the Lens of Learned Feature Space [12.907949196758565]
二重降下は、機械学習領域内の反直観的な側面を示す。
ノイズの多いデータで訓練された不完全なモデルに二重降下が生じると我々は主張する。
論文 参考訳(メタデータ) (2023-10-20T15:10:16Z) - On the Joint Interaction of Models, Data, and Features [82.60073661644435]
本稿では,データとモデル間の相互作用を実験的に解析する新しいツールであるインタラクションテンソルを紹介する。
これらの観測に基づいて,特徴学習のための概念的枠組みを提案する。
この枠組みの下では、一つの仮説に対する期待された精度と一対の仮説に対する合意はどちらも閉形式で導出することができる。
論文 参考訳(メタデータ) (2023-06-07T21:35:26Z) - Learning of Visual Relations: The Devil is in the Tails [59.737494875502215]
視覚的関係学習は、物体群に関する共同推論の性質から、長期にわたる問題である。
本稿では,悪が天国にあるという別の仮説を探求する。
この仮説の下では、モデルをシンプルに保ちながら、長い尾の分布に対処する能力を向上させることで、より良い性能が得られる。
論文 参考訳(メタデータ) (2021-08-22T08:59:35Z) - PQA: Perceptual Question Answering [35.051664704756995]
知覚組織は、人間の視覚システムに関する数少ない確立された理論の1つである。
本稿では,2つの位置変化を提唱し,知覚的組織の研究を振り返る。
複雑な実画像ではなく、意図的に生成された合成データを調べる。
次に、人間の心理学からの洞察を借りて、知覚的組織を自己意識の問題とみなすエージェントを設計する。
論文 参考訳(メタデータ) (2021-04-08T08:06:21Z) - The Struggles of Feature-Based Explanations: Shapley Values vs. Minimal
Sufficient Subsets [61.66584140190247]
機能に基づく説明は、自明なモデルでも問題を引き起こすことを示す。
そこで本研究では,2つの一般的な説明書クラスであるシェープリー説明書と十分最小限の部分集合説明書が,基本的に異なる基底的説明書のタイプをターゲットにしていることを示す。
論文 参考訳(メタデータ) (2020-09-23T09:45:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。