Fugu-MT 論文翻訳(概要): Bridging Critical Gaps in Convergent Learning: How Representational Alignment Evolves Across Layers, Training, and Distribution Shifts

論文の概要: Bridging Critical Gaps in Convergent Learning: How Representational Alignment Evolves Across Layers, Training, and Distribution Shifts

arxiv url: http://arxiv.org/abs/2502.18710v2
Date: Thu, 29 May 2025 06:26:42 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-30 15:42:33.394635
Title: Bridging Critical Gaps in Convergent Learning: How Representational Alignment Evolves Across Layers, Training, and Distribution Shifts
Title（参考訳）: 収束学習における批判的ギャップのブリッジ:表象アライメントが層間, 訓練, 分布変化をいかに巻き起こすか
Authors: Chaitanya Kapoor, Sudhanshu Srivastava, Meenakshi Khosla,
Abstract要約: 収束学習は、神経システムが同様の内部表現に到達する度合いである。数十の視覚モデルと数千の層対比較にまたがる収束学習の大規模監査を行う。発見は、表現の収束に対する理解において重要なギャップを埋め、神経科学とAIに影響を及ぼす。
参考スコア（独自算出の注目度）: 1.9458156037869137
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Understanding convergent learning -- the degree to which independently trained neural systems -- whether multiple artificial networks or brains and models -- arrive at similar internal representations -- is crucial for both neuroscience and AI. Yet, the literature remains narrow in scope -- typically examining just a handful of models with one dataset, relying on one alignment metric, and evaluating networks at a single post-training checkpoint. We present a large-scale audit of convergent learning, spanning dozens of vision models and thousands of layer-pair comparisons, to close these long-standing gaps. First, we pit three alignment families against one another -- linear regression (affine-invariant), orthogonal Procrustes (rotation-/reflection-invariant), and permutation/soft-matching (unit-order-invariant). We find that orthogonal transformations align representations nearly as effectively as more flexible linear ones, and although permutation scores are lower, they significantly exceed chance, indicating a privileged representational basis. Tracking convergence throughout training further shows that nearly all eventual alignment crystallizes within the first epoch -- well before accuracy plateaus -- indicating it is largely driven by shared input statistics and architectural biases, not by the final task solution. Finally, when models are challenged with a battery of out-of-distribution images, early layers remain tightly aligned, whereas deeper layers diverge in proportion to the distribution shift. These findings fill critical gaps in our understanding of representational convergence, with implications for neuroscience and AI.
Abstract（参考訳）: 収束学習(複数の人工ネットワークや脳やモデルなど)を理解することは、神経科学とAIの両方にとって不可欠だ。しかし、文献の範囲は狭く、通常は1つのデータセットを持つ少数のモデルのみを調べ、1つのアライメントメトリックに依存し、単一のトレーニング後のチェックポイントでネットワークを評価する。我々は、この長期的ギャップを埋めるために、数十の視覚モデルと数千の層対比較にまたがる収束学習の大規模な監査を行う。まず、線形回帰(アフィン不変)、直交Procrustes(回転/反射不変)、permutation/soft-matching(一階不変)の3つのアライメント族を互いに比較する。直交変換は、よりフレキシブルな線形表現とほぼ同等の効率で表わされ、置換スコアは低いが、それらはチャンスをはるかに上回り、特権的表現基底を示す。トレーニング全体を通じて収束を追跡することで、最終的なアライメントのほぼすべてが、最終タスクソリューションではなく、共有された入力統計とアーキテクチャバイアスによって主に駆動されることを示す、最初のエポック内で結晶化されていることが、さらに示される。最後に、分布外画像の電池でモデルが挑戦されると、初期層は密に整列し、一方、より深い層は分布シフトに比例して分岐する。これらの知見は、表現の収束の理解において重要なギャップを埋め、神経科学とAIに影響を及ぼす。

関連論文リスト

The Butterfly Effect: Neural Network Training Trajectories Are Highly Sensitive to Initial Conditions [51.68215326304272]
たとえ小さな摂動であっても、同じ訓練軌跡を確実に引き起こすことで、トレーニング時間とともに急速に減少する効果が発散することを示します。この結果から,ニューラルネットワークのトレーニング安定性,微調整,モデルマージ,モデルアンサンブルの多様性の実践的意味が示唆された。
論文参考訳（メタデータ） (2025-06-16T08:35:16Z)
In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文参考訳（メタデータ） (2025-03-17T02:00:49Z)
Pre-trained Models Succeed in Medical Imaging with Representation Similarity Degradation [6.545152478351316]
本研究は,表現類似性軌跡の定量化と解析を中心とした厳密な問題定義を確立する。実験結果から,タスクの精度と事前学習した起源との類似性の両方を保った高性能モデルが存在する可能性が示唆された。
論文参考訳（メタデータ） (2025-03-11T01:37:54Z)
Non-asymptotic Convergence of Training Transformers for Next-token Prediction [48.9399496805422]
トランスフォーマーは、シーケンシャルなデータを扱う優れた能力のために、現代の機械学習において驚くべき成功を収めています。本稿では, 単層変圧器のトレーニング力学の微細な非漸近解析を行う。トレーニングされたトランスフォーマーは,データセットシフトによる非トーケン予測能力を示すことを示す。
論文参考訳（メタデータ） (2024-09-25T20:22:06Z)
Tracing Representation Progression: Analyzing and Enhancing Layer-Wise Similarity [20.17288970927518]
本研究では,各変圧器の隠蔽層間の表現の類似性について検討する。層間の表現が正の相関を示し、層が近づくと類似度が増加する。浅い層の有効性を向上させるためのアライメント・トレーニング手法を提案する。
論文参考訳（メタデータ） (2024-06-20T16:41:09Z)
Minimum-Norm Interpolation Under Covariate Shift [14.863831433459902]
高次元線形回帰に関する非分布研究は、テキシトベニンオーバーフィッティング(textitbenign overfitting)として知られる現象の同定につながった。本稿では,移動学習環境における線形補間器の非漸近的過剰リスク境界を初めて証明する。
論文参考訳（メタデータ） (2024-03-31T01:41:57Z)
Comparing supervised learning dynamics: Deep neural networks match human data efficiency but show a generalisation lag [3.0333265803394993]
近年の研究では、画像分類分野における人間とディープニューラルネットワーク(DNN)の行動比較が数多く行われている。本稿では、人間の観察者および様々な古典的かつ最先端のDNNにおける学習力学の詳細な研究について報告する。学習プロセス全体にわたって、十分に学習された表現が、これまで見つからなかったテストデータにどのように一般化できるかを評価し、比較する。
論文参考訳（メタデータ） (2024-02-14T16:47:20Z)
Outliers with Opposing Signals Have an Outsized Effect on Neural Network Optimization [36.72245290832128]
自然データにおける深度とヘビーテール構造との相互作用から生じるニューラルネットワーク最適化の新たな現象を同定する。特に、プログレッシブ・シャープニングと安定性の端について、概念的に新しい原因を示唆している。強い反対信号を持つトレーニングデータにおいて,2組のオフレーヤ群が有意な影響を示した。
論文参考訳（メタデータ） (2023-11-07T17:43:50Z)
In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文参考訳（メタデータ） (2023-10-08T17:55:33Z)
From Bricks to Bridges: Product of Invariances to Enhance Latent Space Communication [19.336940758147442]
異なるニューラルネットワークによって学習された表現は、モデルが同様の誘導バイアスの下で訓練されたときに構造的類似性を隠蔽することが観察されている。我々は,不変成分の積空間を潜在表現の上に構築し,その表現に不変量の集合を直接組み込む汎用的手法を導入する。我々は,ゼロショット縫合設定において,一貫した遅延類似性および下流性能向上を観察し,分類および再構成タスクに対するソリューションの有効性を検証した。
論文参考訳（メタデータ） (2023-10-02T13:55:38Z)
Neural networks trained with SGD learn distributions of increasing complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。その後、トレーニング中にのみ高次の統計を利用する。本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文参考訳（メタデータ） (2022-11-21T15:27:22Z)
Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文参考訳（メタデータ） (2022-02-01T17:11:13Z)
Understanding Feature Transfer Through Representation Alignment [45.35473578109525]
異なるアーキテクチャによるニューラルネットワークのトレーニングや、ランダムなラベルや真のラベルの一般化は、隠れた表現とトレーニングラベルの同じ関係を強制する。古典的な合成伝達問題において、アライメントが、類似および異種タスクへの正および負の転送の決定因子であることを示す。
論文参考訳（メタデータ） (2021-12-15T00:20:29Z)
Analyzing Overfitting under Class Imbalance in Neural Networks for Image Segmentation [19.259574003403998]
画像分割では、ニューラルネットワークは小さな構造物の前景サンプルに過剰に適合する可能性がある。本研究では,ネットワークの動作を検査することにより,クラス不均衡下でのオーバーフィッティング問題に対する新たな知見を提供する。
論文参考訳（メタデータ） (2021-02-20T14:57:58Z)
Can Temporal-Difference and Q-Learning Learn Representation? A Mean-Field Theory [110.99247009159726]
時間差とQ-ラーニングは、ニューラルネットワークのような表現力のある非線形関数近似器によって強化される深層強化学習において重要な役割を担っている。特に時間差学習は、関数近似器が特徴表現において線形であるときに収束する。
論文参考訳（メタデータ） (2020-06-08T17:25:22Z)
Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。 Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文参考訳（メタデータ） (2020-04-20T18:12:56Z)
Learning What Makes a Difference from Counterfactual Examples and Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文参考訳（メタデータ） (2020-04-20T02:47:49Z)
Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文参考訳（メタデータ） (2020-02-20T15:43:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。