論文の概要: Bridging Critical Gaps in Convergent Learning: How Representational Alignment Evolves Across Layers, Training, and Distribution Shifts
- arxiv url: http://arxiv.org/abs/2502.18710v2
- Date: Thu, 29 May 2025 06:26:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 15:42:33.394635
- Title: Bridging Critical Gaps in Convergent Learning: How Representational Alignment Evolves Across Layers, Training, and Distribution Shifts
- Title(参考訳): 収束学習における批判的ギャップのブリッジ:表象アライメントが層間, 訓練, 分布変化をいかに巻き起こすか
- Authors: Chaitanya Kapoor, Sudhanshu Srivastava, Meenakshi Khosla,
- Abstract要約: 収束学習は、神経システムが同様の内部表現に到達する度合いである。
数十の視覚モデルと数千の層対比較にまたがる収束学習の大規模監査を行う。
発見は、表現の収束に対する理解において重要なギャップを埋め、神経科学とAIに影響を及ぼす。
- 参考スコア(独自算出の注目度): 1.9458156037869137
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Understanding convergent learning -- the degree to which independently trained neural systems -- whether multiple artificial networks or brains and models -- arrive at similar internal representations -- is crucial for both neuroscience and AI. Yet, the literature remains narrow in scope -- typically examining just a handful of models with one dataset, relying on one alignment metric, and evaluating networks at a single post-training checkpoint. We present a large-scale audit of convergent learning, spanning dozens of vision models and thousands of layer-pair comparisons, to close these long-standing gaps. First, we pit three alignment families against one another -- linear regression (affine-invariant), orthogonal Procrustes (rotation-/reflection-invariant), and permutation/soft-matching (unit-order-invariant). We find that orthogonal transformations align representations nearly as effectively as more flexible linear ones, and although permutation scores are lower, they significantly exceed chance, indicating a privileged representational basis. Tracking convergence throughout training further shows that nearly all eventual alignment crystallizes within the first epoch -- well before accuracy plateaus -- indicating it is largely driven by shared input statistics and architectural biases, not by the final task solution. Finally, when models are challenged with a battery of out-of-distribution images, early layers remain tightly aligned, whereas deeper layers diverge in proportion to the distribution shift. These findings fill critical gaps in our understanding of representational convergence, with implications for neuroscience and AI.
- Abstract(参考訳): 収束学習(複数の人工ネットワークや脳やモデルなど)を理解することは、神経科学とAIの両方にとって不可欠だ。
しかし、文献の範囲は狭く、通常は1つのデータセットを持つ少数のモデルのみを調べ、1つのアライメントメトリックに依存し、単一のトレーニング後のチェックポイントでネットワークを評価する。
我々は、この長期的ギャップを埋めるために、数十の視覚モデルと数千の層対比較にまたがる収束学習の大規模な監査を行う。
まず、線形回帰(アフィン不変)、直交Procrustes(回転/反射不変)、permutation/soft-matching(一階不変)の3つのアライメント族を互いに比較する。
直交変換は、よりフレキシブルな線形表現とほぼ同等の効率で表わされ、置換スコアは低いが、それらはチャンスをはるかに上回り、特権的表現基底を示す。
トレーニング全体を通じて収束を追跡することで、最終的なアライメントのほぼすべてが、最終タスクソリューションではなく、共有された入力統計とアーキテクチャバイアスによって主に駆動されることを示す、最初のエポック内で結晶化されていることが、さらに示される。
最後に、分布外画像の電池でモデルが挑戦されると、初期層は密に整列し、一方、より深い層は分布シフトに比例して分岐する。
これらの知見は、表現の収束の理解において重要なギャップを埋め、神経科学とAIに影響を及ぼす。
関連論文リスト
- Pre-trained Models Succeed in Medical Imaging with Representation Similarity Degradation [6.545152478351316]
本研究は,表現類似性軌跡の定量化と解析を中心とした厳密な問題定義を確立する。
実験結果から,タスクの精度と事前学習した起源との類似性の両方を保った高性能モデルが存在する可能性が示唆された。
論文 参考訳(メタデータ) (2025-03-11T01:37:54Z) - Non-asymptotic Convergence of Training Transformers for Next-token Prediction [48.9399496805422]
トランスフォーマーは、シーケンシャルなデータを扱う優れた能力のために、現代の機械学習において驚くべき成功を収めています。
本稿では, 単層変圧器のトレーニング力学の微細な非漸近解析を行う。
トレーニングされたトランスフォーマーは,データセットシフトによる非トーケン予測能力を示すことを示す。
論文 参考訳(メタデータ) (2024-09-25T20:22:06Z) - Comparing supervised learning dynamics: Deep neural networks match human data efficiency but show a generalisation lag [3.0333265803394993]
近年の研究では、画像分類分野における人間とディープニューラルネットワーク(DNN)の行動比較が数多く行われている。
本稿では、人間の観察者および様々な古典的かつ最先端のDNNにおける学習力学の詳細な研究について報告する。
学習プロセス全体にわたって、十分に学習された表現が、これまで見つからなかったテストデータにどのように一般化できるかを評価し、比較する。
論文 参考訳(メタデータ) (2024-02-14T16:47:20Z) - Outliers with Opposing Signals Have an Outsized Effect on Neural Network
Optimization [36.72245290832128]
自然データにおける深度とヘビーテール構造との相互作用から生じるニューラルネットワーク最適化の新たな現象を同定する。
特に、プログレッシブ・シャープニングと安定性の端について、概念的に新しい原因を示唆している。
強い反対信号を持つトレーニングデータにおいて,2組のオフレーヤ群が有意な影響を示した。
論文 参考訳(メタデータ) (2023-11-07T17:43:50Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - From Bricks to Bridges: Product of Invariances to Enhance Latent Space Communication [19.336940758147442]
異なるニューラルネットワークによって学習された表現は、モデルが同様の誘導バイアスの下で訓練されたときに構造的類似性を隠蔽することが観察されている。
我々は,不変成分の積空間を潜在表現の上に構築し,その表現に不変量の集合を直接組み込む汎用的手法を導入する。
我々は,ゼロショット縫合設定において,一貫した遅延類似性および下流性能向上を観察し,分類および再構成タスクに対するソリューションの有効性を検証した。
論文 参考訳(メタデータ) (2023-10-02T13:55:38Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Understanding Feature Transfer Through Representation Alignment [45.35473578109525]
異なるアーキテクチャによるニューラルネットワークのトレーニングや、ランダムなラベルや真のラベルの一般化は、隠れた表現とトレーニングラベルの同じ関係を強制する。
古典的な合成伝達問題において、アライメントが、類似および異種タスクへの正および負の転送の決定因子であることを示す。
論文 参考訳(メタデータ) (2021-12-15T00:20:29Z) - Can Temporal-Difference and Q-Learning Learn Representation? A Mean-Field Theory [110.99247009159726]
時間差とQ-ラーニングは、ニューラルネットワークのような表現力のある非線形関数近似器によって強化される深層強化学習において重要な役割を担っている。
特に時間差学習は、関数近似器が特徴表現において線形であるときに収束する。
論文 参考訳(メタデータ) (2020-06-08T17:25:22Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。