論文の概要: Layer Importance for Mathematical Reasoning is Forged in Pre-Training and Invariant after Post-Training
- arxiv url: http://arxiv.org/abs/2506.22638v2
- Date: Wed, 05 Nov 2025 05:15:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.10353
- Title: Layer Importance for Mathematical Reasoning is Forged in Pre-Training and Invariant after Post-Training
- Title(参考訳): 数学的推論のための層の重要性 : 事前学習とポストトレーニング後の不変性
- Authors: Aadim Nepal, Safal Shrestha, Anubhav Shrestha, Minwu Kim, Jalal Naghiyev, Ravid Shwartz-Ziv, Keith Ross,
- Abstract要約: 数学の推論はいくつかの重要な層に依存しており、これはすべてのポストトレーニング手法において重要である。
このことは、数学的なタスクの特殊層が事前学習中に形成され、その後安定していることを示唆している。
- 参考スコア(独自算出の注目度): 6.399365020213369
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models improve at math after instruction tuning, reinforcement learning, or knowledge distillation. We ask whether these gains come from major changes in the transformer layers or from smaller adjustments that keep the original structure. Using layer-wise ablation on base and trained variants, we find that math reasoning depends on a few critical layers, which stay important across all post- training methods. Removing these layers reduces math accuracy by as much as 80%, whereas factual recall tasks only show relatively smaller drops. This suggests that specialized layers for mathematical tasks form during pre-training and remain stable afterward. As measured by Normalized Mutual Information (NMI), we find that near these critical layers, tokens drift from their original syntactic clusters toward representations aligned with tokens less syntactically related but potentially more useful for downstream task.
- Abstract(参考訳): 大規模言語モデルは、指導訓練、強化学習、知識蒸留を経て数学において改善される。
これらの利点は、トランス層における大きな変化によるものなのか、あるいは元の構造を維持する小さな調整によるものなのかを問う。
基本および訓練された変種におけるレイヤーワイド・アブレーションを用いることで、数学の推論はいくつかの重要な層に依存し、すべてのポストトレーニング手法において重要であることが分かる。
これらの層を除去すると、数学の精度は最大80%低下するが、現実のリコールタスクは比較的小さなドロップしか示さない。
このことは、数学的なタスクの特殊層が事前学習中に形成され、その後安定していることを示唆している。
正規化相互情報(NMI)によって測定されたように、これらの臨界層の近くでは、トークンが元のシンタクティッククラスタから、より構文的に関連がないが下流タスクに有用なトークンと整合した表現に向かって漂着していることが分かる。
関連論文リスト
- Towards the Training of Deeper Predictive Coding Neural Networks [53.15874572081944]
平衡伝播で訓練された予測符号化ネットワークは、反復エネルギープロセスを通じて推論を行うニューラルネットワークである。
従来の研究では、浅層建築において効果が示されたが、深さが5層から7層を超えると性能が著しく低下した。
この劣化の原因は,重み更新時の層間エラーの指数的不均衡化と,より深い層内の更新を導く上で,前層からの予測が有効でないことにある。
論文 参考訳(メタデータ) (2025-06-30T12:44:47Z) - How Do Training Methods Influence the Utilization of Vision Models? [23.41975772383921]
すべての学習可能なパラメータが、ニューラルネットワークの決定関数に等しく寄与するわけではない。
アーキテクチャとタスクの複雑さがこの現象にどのように影響するかを調べる以前の研究を再考する。
本研究により, 学習手法は, 与えられた課題に対する決定関数にどの層が重要になるかに強く影響を与えることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-18T13:54:46Z) - Distributional Associations vs In-Context Reasoning: A Study of Feed-forward and Attention Layers [49.80959223722325]
本研究では,大規模言語モデルにおけるフィードフォワード層とアテンション層との区別について検討する。
フィードフォワード層はビッグラムのような単純な分布関係を学習する傾向があり、注意層は文脈内推論にフォーカスする。
論文 参考訳(メタデータ) (2024-06-05T08:51:08Z) - On the Generalization Ability of Unsupervised Pretraining [53.06175754026037]
教師なし学習の最近の進歩は、教師なし事前学習、および微調整がモデル一般化を改善することを示している。
本稿では、教師なし事前学習中に得られた知識の伝達可能性に影響を及ぼす重要な要因をその後の微調整フェーズに照らす新しい理論的枠組みを提案する。
この結果は教師なし事前学習と微調整のパラダイムの理解を深め、より効果的な事前学習アルゴリズムの設計に光を当てることができる。
論文 参考訳(メタデータ) (2024-03-11T16:23:42Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - What Happens During Finetuning of Vision Transformers: An Invariance
Based Investigation [7.432224771219168]
Pretrain-finetuneパラダイムは、通常、同じタスクでモデルをスクラッチからトレーニングするよりも、下流のパフォーマンスを改善する。
本研究では,事前学習した視覚変換器とそれに対応する微調整バージョンとの関係を,複数のベンチマークデータセットとタスクで検討する。
論文 参考訳(メタデータ) (2023-07-12T08:35:24Z) - How Do Transformers Learn Topic Structure: Towards a Mechanistic
Understanding [56.222097640468306]
我々は、トランスフォーマーが「意味構造」を学ぶ方法の機械的理解を提供する
数学的解析とウィキペディアデータの実験を組み合わせることで、埋め込み層と自己保持層がトピック構造をエンコードしていることを示す。
論文 参考訳(メタデータ) (2023-03-07T21:42:17Z) - Signal Propagation in Transformers: Theoretical Perspectives and the
Role of Rank Collapse [11.486545294602697]
我々はトランスフォーマーにおけるランク崩壊の原因と影響に新たな光を当てた。
トークン表現のランク崩壊は,クエリやキーの勾配がなくなることによって,トレーニングを妨げていることを示す。
論文 参考訳(メタデータ) (2022-06-07T09:07:24Z) - MetaLR: Meta-tuning of Learning Rates for Transfer Learning in Medical
Imaging [22.203645869758155]
転送学習は、限られた医療データに基づいて、ディープニューラルネットワーク(DNN)をうまく一般化するための強力な方法である。
本研究では,メタ学習に基づくLRチューナであるMetaLRを提案する。
様々な医学応用に関する大規模な実験により、MetaLRは従来のSOTA(State-of-the-art)ファインチューニング戦略よりも優れていたことが示されている。
論文 参考訳(メタデータ) (2022-06-03T06:31:11Z) - Going beyond p-convolutions to learn grayscale morphological operators [64.38361575778237]
p-畳み込み層と同じ原理に基づく2つの新しい形態層を提示する。
本研究では, p-畳み込み層と同じ原理に基づく2つの新しい形態層を示す。
論文 参考訳(メタデータ) (2021-02-19T17:22:16Z) - Conflicting Bundles: Adapting Architectures Towards the Improved
Training of Deep Neural Networks [1.7188280334580195]
トレーニングされたモデルのテスト精度を低下させるレイヤを特定するために,新しい理論と計量を導入する。
矛盾するトレーニングバンドルを生成するため、パフォーマンスを悪化させるこれらのレイヤを特定します。
これらの結果に基づき、性能低下層を自動的に除去する新しいアルゴリズムが導入された。
論文 参考訳(メタデータ) (2020-11-05T16:41:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。