論文の概要: Bridging Critical Gaps in Convergent Learning: How Representational Alignment Evolves Across Layers, Training, and Distribution Shifts
- arxiv url: http://arxiv.org/abs/2502.18710v1
- Date: Wed, 26 Feb 2025 00:04:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 15:24:46.334349
- Title: Bridging Critical Gaps in Convergent Learning: How Representational Alignment Evolves Across Layers, Training, and Distribution Shifts
- Title(参考訳): 収束学習における批判的ギャップのブリッジ:表象アライメントが層間, 訓練, 分布変化をいかに巻き起こすか
- Authors: Chaitanya Kapoor, Sudhanshu Srivastava, Meenakshi Khosla,
- Abstract要約: 既存の作業の多くは、適切なアライメントに必要な変換不変性を見越して、限られたメトリクスセットに依存しています。
2つ目の重要なギャップは、トレーニング中にアライメントが現れるときの理解にある。
コンバージェンスがタスク固有の学習と共に徐々に構築されるという期待とは対照的に、我々の研究結果は、コンバージェンスはほぼすべてのコンバージェンスが最初のエポック内で発生していることを明らかにする。
これらの知見は、表現の収束の理解において重要なギャップを埋め、神経科学とAIに影響を及ぼす。
- 参考スコア(独自算出の注目度): 1.9458156037869137
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Understanding convergent learning -- the extent to which artificial and biological neural networks develop similar representations -- is crucial for neuroscience and AI, as it reveals shared learning principles and guides brain-like model design. While several studies have noted convergence in early and late layers of vision networks, key gaps remain. First, much existing work relies on a limited set of metrics, overlooking transformation invariances required for proper alignment. We compare three metrics that ignore specific irrelevant transformations: linear regression (ignoring affine transformations), Procrustes (ignoring rotations and reflections), and permutation/soft-matching (ignoring unit order). Notably, orthogonal transformations align representations nearly as effectively as more flexible linear ones, and although permutation scores are lower, they significantly exceed chance, indicating a robust representational basis. A second critical gap lies in understanding when alignment emerges during training. Contrary to expectations that convergence builds gradually with task-specific learning, our findings reveal that nearly all convergence occurs within the first epoch -- long before networks achieve optimal performance. This suggests that shared input statistics, architectural biases, or early training dynamics drive convergence rather than the final task solution. Finally, prior studies have not systematically examined how changes in input statistics affect alignment. Our work shows that out-of-distribution (OOD) inputs consistently amplify differences in later layers, while early layers remain aligned for both in-distribution and OOD inputs, suggesting that this alignment is driven by generalizable features stable across distribution shifts. These findings fill critical gaps in our understanding of representational convergence, with implications for neuroscience and AI.
- Abstract(参考訳): 収束学習の理解 — 人工ニューラルネットワークと生物学的ニューラルネットワークが同様の表現を発達する範囲 — は神経科学とAIにとって不可欠だ。
いくつかの研究では、視覚ネットワークの初期層と後期層の収束が指摘されているが、重要なギャップは残っている。
まず、既存の作業の多くは、適切なアライメントに必要な変換不変性を見越して、限られたメトリクスセットに依存しています。
線形回帰(アフィン変換を無視した)、プロクリスト(回転や反射を無視した)、置換/ソフトマッチング(単位順序を無視した)の3つの非関係変換を無視する指標を比較した。
特に直交変換は表現をよりフレキシブルな線型変換と同じくらい効果的に整列し、置換スコアは低いが、それらは確率をはるかに上回り、堅牢な表現基底を示す。
2つ目の重要なギャップは、トレーニング中にアライメントが現れるときの理解にある。
コンバージェンスがタスク固有の学習とともに徐々に構築されるという期待とは対照的に、我々の発見は、ネットワークが最適なパフォーマンスを達成するずっと前に、最初のエポック内にほぼすべてのコンバージェンスが発生することを示している。
これは、共有入力統計、アーキテクチャバイアス、早期トレーニングのダイナミクスが最終タスクソリューションよりも収束を促進することを示唆している。
最後に、先行研究は、入力統計の変化がアライメントにどのように影響するかを体系的に検討していない。
我々の研究は、OD(out-of-distriion)インプットが後層の違いを一貫して増幅していることを示し、一方、初期層は、分配とOODインプットの両方に整列し続けており、このアライメントは分布シフトをまたいで安定な一般化可能な特徴によって駆動されていることを示唆している。
これらの知見は、表現の収束の理解において重要なギャップを埋め、神経科学とAIに影響を及ぼす。
関連論文リスト
- The Butterfly Effect: Neural Network Training Trajectories Are Highly Sensitive to Initial Conditions [51.68215326304272]
たとえ小さな摂動であっても、同じ訓練軌跡を確実に引き起こすことで、トレーニング時間とともに急速に減少する効果が発散することを示します。
この結果から,ニューラルネットワークのトレーニング安定性,微調整,モデルマージ,モデルアンサンブルの多様性の実践的意味が示唆された。
論文 参考訳(メタデータ) (2025-06-16T08:35:16Z) - In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。
この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文 参考訳(メタデータ) (2025-03-17T02:00:49Z) - Pre-trained Models Succeed in Medical Imaging with Representation Similarity Degradation [6.545152478351316]
本研究は,表現類似性軌跡の定量化と解析を中心とした厳密な問題定義を確立する。
実験結果から,タスクの精度と事前学習した起源との類似性の両方を保った高性能モデルが存在する可能性が示唆された。
論文 参考訳(メタデータ) (2025-03-11T01:37:54Z) - Non-asymptotic Convergence of Training Transformers for Next-token Prediction [48.9399496805422]
トランスフォーマーは、シーケンシャルなデータを扱う優れた能力のために、現代の機械学習において驚くべき成功を収めています。
本稿では, 単層変圧器のトレーニング力学の微細な非漸近解析を行う。
トレーニングされたトランスフォーマーは,データセットシフトによる非トーケン予測能力を示すことを示す。
論文 参考訳(メタデータ) (2024-09-25T20:22:06Z) - Tracing Representation Progression: Analyzing and Enhancing Layer-Wise Similarity [20.17288970927518]
本研究では,各変圧器の隠蔽層間の表現の類似性について検討する。
層間の表現が正の相関を示し、層が近づくと類似度が増加する。
浅い層の有効性を向上させるためのアライメント・トレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-06-20T16:41:09Z) - Minimum-Norm Interpolation Under Covariate Shift [14.863831433459902]
高次元線形回帰に関する非分布研究は、テキシトベニンオーバーフィッティング(textitbenign overfitting)として知られる現象の同定につながった。
本稿では,移動学習環境における線形補間器の非漸近的過剰リスク境界を初めて証明する。
論文 参考訳(メタデータ) (2024-03-31T01:41:57Z) - Comparing supervised learning dynamics: Deep neural networks match human data efficiency but show a generalisation lag [3.0333265803394993]
近年の研究では、画像分類分野における人間とディープニューラルネットワーク(DNN)の行動比較が数多く行われている。
本稿では、人間の観察者および様々な古典的かつ最先端のDNNにおける学習力学の詳細な研究について報告する。
学習プロセス全体にわたって、十分に学習された表現が、これまで見つからなかったテストデータにどのように一般化できるかを評価し、比較する。
論文 参考訳(メタデータ) (2024-02-14T16:47:20Z) - Outliers with Opposing Signals Have an Outsized Effect on Neural Network
Optimization [36.72245290832128]
自然データにおける深度とヘビーテール構造との相互作用から生じるニューラルネットワーク最適化の新たな現象を同定する。
特に、プログレッシブ・シャープニングと安定性の端について、概念的に新しい原因を示唆している。
強い反対信号を持つトレーニングデータにおいて,2組のオフレーヤ群が有意な影響を示した。
論文 参考訳(メタデータ) (2023-11-07T17:43:50Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - From Bricks to Bridges: Product of Invariances to Enhance Latent Space Communication [19.336940758147442]
異なるニューラルネットワークによって学習された表現は、モデルが同様の誘導バイアスの下で訓練されたときに構造的類似性を隠蔽することが観察されている。
我々は,不変成分の積空間を潜在表現の上に構築し,その表現に不変量の集合を直接組み込む汎用的手法を導入する。
我々は,ゼロショット縫合設定において,一貫した遅延類似性および下流性能向上を観察し,分類および再構成タスクに対するソリューションの有効性を検証した。
論文 参考訳(メタデータ) (2023-10-02T13:55:38Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Understanding Feature Transfer Through Representation Alignment [45.35473578109525]
異なるアーキテクチャによるニューラルネットワークのトレーニングや、ランダムなラベルや真のラベルの一般化は、隠れた表現とトレーニングラベルの同じ関係を強制する。
古典的な合成伝達問題において、アライメントが、類似および異種タスクへの正および負の転送の決定因子であることを示す。
論文 参考訳(メタデータ) (2021-12-15T00:20:29Z) - Analyzing Overfitting under Class Imbalance in Neural Networks for Image
Segmentation [19.259574003403998]
画像分割では、ニューラルネットワークは小さな構造物の前景サンプルに過剰に適合する可能性がある。
本研究では,ネットワークの動作を検査することにより,クラス不均衡下でのオーバーフィッティング問題に対する新たな知見を提供する。
論文 参考訳(メタデータ) (2021-02-20T14:57:58Z) - Can Temporal-Difference and Q-Learning Learn Representation? A Mean-Field Theory [110.99247009159726]
時間差とQ-ラーニングは、ニューラルネットワークのような表現力のある非線形関数近似器によって強化される深層強化学習において重要な役割を担っている。
特に時間差学習は、関数近似器が特徴表現において線形であるときに収束する。
論文 参考訳(メタデータ) (2020-06-08T17:25:22Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。