論文の概要: Questioning Representational Optimism in Deep Learning: The Fractured Entangled Representation Hypothesis
- arxiv url: http://arxiv.org/abs/2505.11581v1
- Date: Fri, 16 May 2025 16:28:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.722881
- Title: Questioning Representational Optimism in Deep Learning: The Fractured Entangled Representation Hypothesis
- Title(参考訳): 深層学習における表現最適化への疑問--有角表現仮説の破断
- Authors: Akarsh Kumar, Jeff Clune, Joel Lehman, Kenneth O. Stanley,
- Abstract要約: 我々は、オープンエンド検索プロセスを通じて進化したニューラルネットワークと、従来の勾配降下法で訓練されたネットワークを比較した。
両方のネットワークは同じ出力動作を生成するが、内部表現は劇的に異なる。
大規模なモデルでは、FERは一般化、創造性、(連続的な)学習といったコアモデルの能力が低下している可能性がある。
- 参考スコア(独自算出の注目度): 14.275283048655268
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Much of the excitement in modern AI is driven by the observation that scaling up existing systems leads to better performance. But does better performance necessarily imply better internal representations? While the representational optimist assumes it must, this position paper challenges that view. We compare neural networks evolved through an open-ended search process to networks trained via conventional stochastic gradient descent (SGD) on the simple task of generating a single image. This minimal setup offers a unique advantage: each hidden neuron's full functional behavior can be easily visualized as an image, thus revealing how the network's output behavior is internally constructed neuron by neuron. The result is striking: while both networks produce the same output behavior, their internal representations differ dramatically. The SGD-trained networks exhibit a form of disorganization that we term fractured entangled representation (FER). Interestingly, the evolved networks largely lack FER, even approaching a unified factored representation (UFR). In large models, FER may be degrading core model capacities like generalization, creativity, and (continual) learning. Therefore, understanding and mitigating FER could be critical to the future of representation learning.
- Abstract(参考訳): 現代のAIの興奮の大部分は、既存のシステムをスケールアップすることでパフォーマンスが向上する、という観察によって引き起こされる。
しかし、より良いパフォーマンスは必ずしもより良い内部表現を意味するのだろうか?
表現的楽観主義者はそれを必要と仮定するが、この立場は、その見解に異議を唱える。
我々は,従来の確率勾配勾配勾配(SGD)を用いて訓練されたネットワークに対して,単一の画像を生成する単純なタスクを用いて,オープンエンド検索プロセスを通じて進化したニューラルネットワークを比較した。
この最小限の設定は、それぞれ隠れたニューロンの完全な機能的振る舞いを画像として容易に視覚化し、ネットワークの出力動作がニューロンによって内部的に構築されたニューロンであることを示すという、ユニークな利点を提供する。
両方のネットワークは同じ出力動作を生成できるが、内部表現は劇的に異なる。
SGD訓練ネットワークは, フラクチャード・エンタングルド・表現(FER)と呼ばれる, 分散形態を示す。
興味深いことに、進化したネットワークにはFERがほとんどなく、統一因子表現 (UFR) にさえ近づいた。
大規模なモデルでは、FERは一般化、創造性、(連続的な)学習といったコアモデルの能力が低下している可能性がある。
したがって、FERの理解と緩和は、表現学習の将来にとって重要である可能性がある。
関連論文リスト
- Coding schemes in neural networks learning classification tasks [52.22978725954347]
完全接続型広義ニューラルネットワーク学習タスクについて検討する。
ネットワークが強力なデータ依存機能を取得することを示す。
驚くべきことに、内部表現の性質は神経の非線形性に大きく依存する。
論文 参考訳(メタデータ) (2024-06-24T14:50:05Z) - Unsupervised representation learning with Hebbian synaptic and structural plasticity in brain-like feedforward neural networks [0.0]
教師なし表現学習が可能な脳様ニューラルネットワークモデルを導入,評価する。
このモデルは、一般的な機械学習ベンチマークのさまざまなセットでテストされた。
論文 参考訳(メタデータ) (2024-06-07T08:32:30Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - Interpretable part-whole hierarchies and conceptual-semantic
relationships in neural networks [4.153804257347222]
本稿では、視覚的手がかりから部分全体階層を表現できるフレームワークであるAgglomeratorについて述べる。
本研究では,SmallNORB,MNIST,FashionMNIST,CIFAR-10,CIFAR-100などの共通データセットを用いて評価を行った。
論文 参考訳(メタデータ) (2022-03-07T10:56:13Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - Mitigating Performance Saturation in Neural Marked Point Processes:
Architectures and Loss Functions [50.674773358075015]
本稿では,グラフ畳み込み層のみを利用するGCHPという単純なグラフベースのネットワーク構造を提案する。
我々は,GCHPがトレーニング時間を大幅に短縮し,時間間確率仮定による確率比損失がモデル性能を大幅に改善できることを示した。
論文 参考訳(メタデータ) (2021-07-07T16:59:14Z) - It's FLAN time! Summing feature-wise latent representations for
interpretability [0.0]
FLAN(Feature-wise Latent Additive Networks)と呼ばれる構造拘束型ニューラルネットワークの新たなクラスを提案する。
FLANは各入力機能を別々に処理し、それぞれに共通の潜在空間の表現を演算する。
これらの特徴的潜在表現は単純に要約され、集約された表現は予測に使用される。
論文 参考訳(メタデータ) (2021-06-18T12:19:33Z) - Redundant representations help generalization in wide neural networks [71.38860635025907]
様々な最先端の畳み込みニューラルネットワークの最後に隠された層表現について検討する。
最後に隠された表現が十分に広ければ、そのニューロンは同一の情報を持つグループに分裂し、統計的に独立したノイズによってのみ異なる傾向にある。
論文 参考訳(メタデータ) (2021-06-07T10:18:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。