論文の概要: Bridging Critical Gaps in Convergent Learning: How Representational Alignment Evolves Across Layers, Training, and Distribution Shifts
- arxiv url: http://arxiv.org/abs/2502.18710v1
- Date: Wed, 26 Feb 2025 00:04:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:56:48.086270
- Title: Bridging Critical Gaps in Convergent Learning: How Representational Alignment Evolves Across Layers, Training, and Distribution Shifts
- Title(参考訳): 収束学習における批判的ギャップのブリッジ:表象アライメントが層間, 訓練, 分布変化をいかに巻き起こすか
- Authors: Chaitanya Kapoor, Sudhanshu Srivastava, Meenakshi Khosla,
- Abstract要約: 既存の作業の多くは、適切なアライメントに必要な変換不変性を見越して、限られたメトリクスセットに依存しています。
2つ目の重要なギャップは、トレーニング中にアライメントが現れるときの理解にある。
コンバージェンスがタスク固有の学習と共に徐々に構築されるという期待とは対照的に、我々の研究結果は、コンバージェンスはほぼすべてのコンバージェンスが最初のエポック内で発生していることを明らかにする。
これらの知見は、表現の収束の理解において重要なギャップを埋め、神経科学とAIに影響を及ぼす。
- 参考スコア(独自算出の注目度): 1.9458156037869137
- License:
- Abstract: Understanding convergent learning -- the extent to which artificial and biological neural networks develop similar representations -- is crucial for neuroscience and AI, as it reveals shared learning principles and guides brain-like model design. While several studies have noted convergence in early and late layers of vision networks, key gaps remain. First, much existing work relies on a limited set of metrics, overlooking transformation invariances required for proper alignment. We compare three metrics that ignore specific irrelevant transformations: linear regression (ignoring affine transformations), Procrustes (ignoring rotations and reflections), and permutation/soft-matching (ignoring unit order). Notably, orthogonal transformations align representations nearly as effectively as more flexible linear ones, and although permutation scores are lower, they significantly exceed chance, indicating a robust representational basis. A second critical gap lies in understanding when alignment emerges during training. Contrary to expectations that convergence builds gradually with task-specific learning, our findings reveal that nearly all convergence occurs within the first epoch -- long before networks achieve optimal performance. This suggests that shared input statistics, architectural biases, or early training dynamics drive convergence rather than the final task solution. Finally, prior studies have not systematically examined how changes in input statistics affect alignment. Our work shows that out-of-distribution (OOD) inputs consistently amplify differences in later layers, while early layers remain aligned for both in-distribution and OOD inputs, suggesting that this alignment is driven by generalizable features stable across distribution shifts. These findings fill critical gaps in our understanding of representational convergence, with implications for neuroscience and AI.
- Abstract(参考訳): 収束学習の理解 — 人工ニューラルネットワークと生物学的ニューラルネットワークが同様の表現を発達する範囲 — は神経科学とAIにとって不可欠だ。
いくつかの研究では、視覚ネットワークの初期層と後期層の収束が指摘されているが、重要なギャップは残っている。
まず、既存の作業の多くは、適切なアライメントに必要な変換不変性を見越して、限られたメトリクスセットに依存しています。
線形回帰(アフィン変換を無視した)、プロクリスト(回転や反射を無視した)、置換/ソフトマッチング(単位順序を無視した)の3つの非関係変換を無視する指標を比較した。
特に直交変換は表現をよりフレキシブルな線型変換と同じくらい効果的に整列し、置換スコアは低いが、それらは確率をはるかに上回り、堅牢な表現基底を示す。
2つ目の重要なギャップは、トレーニング中にアライメントが現れるときの理解にある。
コンバージェンスがタスク固有の学習とともに徐々に構築されるという期待とは対照的に、我々の発見は、ネットワークが最適なパフォーマンスを達成するずっと前に、最初のエポック内にほぼすべてのコンバージェンスが発生することを示している。
これは、共有入力統計、アーキテクチャバイアス、早期トレーニングのダイナミクスが最終タスクソリューションよりも収束を促進することを示唆している。
最後に、先行研究は、入力統計の変化がアライメントにどのように影響するかを体系的に検討していない。
我々の研究は、OD(out-of-distriion)インプットが後層の違いを一貫して増幅していることを示し、一方、初期層は、分配とOODインプットの両方に整列し続けており、このアライメントは分布シフトをまたいで安定な一般化可能な特徴によって駆動されていることを示唆している。
これらの知見は、表現の収束の理解において重要なギャップを埋め、神経科学とAIに影響を及ぼす。
関連論文リスト
- Unitary convolutions for learning on graphs and groups [0.9899763598214121]
我々は、訓練中により安定したより深いネットワークを可能にするユニタリグループ畳み込みについて研究する。
論文の主な焦点はグラフニューラルネットワークであり、ユニタリグラフの畳み込みがオーバー・スムーシングを確実に回避していることを示す。
実験結果から,ベンチマークデータセット上でのユニタリグラフ畳み込みネットワークの競合性能が確認できた。
論文 参考訳(メタデータ) (2024-10-07T21:09:14Z) - Outliers with Opposing Signals Have an Outsized Effect on Neural Network
Optimization [36.72245290832128]
自然データにおける深度とヘビーテール構造との相互作用から生じるニューラルネットワーク最適化の新たな現象を同定する。
特に、プログレッシブ・シャープニングと安定性の端について、概念的に新しい原因を示唆している。
強い反対信号を持つトレーニングデータにおいて,2組のオフレーヤ群が有意な影響を示した。
論文 参考訳(メタデータ) (2023-11-07T17:43:50Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - From Bricks to Bridges: Product of Invariances to Enhance Latent Space Communication [19.336940758147442]
異なるニューラルネットワークによって学習された表現は、モデルが同様の誘導バイアスの下で訓練されたときに構造的類似性を隠蔽することが観察されている。
我々は,不変成分の積空間を潜在表現の上に構築し,その表現に不変量の集合を直接組み込む汎用的手法を導入する。
我々は,ゼロショット縫合設定において,一貫した遅延類似性および下流性能向上を観察し,分類および再構成タスクに対するソリューションの有効性を検証した。
論文 参考訳(メタデータ) (2023-10-02T13:55:38Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Understanding Feature Transfer Through Representation Alignment [45.35473578109525]
異なるアーキテクチャによるニューラルネットワークのトレーニングや、ランダムなラベルや真のラベルの一般化は、隠れた表現とトレーニングラベルの同じ関係を強制する。
古典的な合成伝達問題において、アライメントが、類似および異種タスクへの正および負の転送の決定因子であることを示す。
論文 参考訳(メタデータ) (2021-12-15T00:20:29Z) - Can Temporal-Difference and Q-Learning Learn Representation? A Mean-Field Theory [110.99247009159726]
時間差とQ-ラーニングは、ニューラルネットワークのような表現力のある非線形関数近似器によって強化される深層強化学習において重要な役割を担っている。
特に時間差学習は、関数近似器が特徴表現において線形であるときに収束する。
論文 参考訳(メタデータ) (2020-06-08T17:25:22Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。