論文の概要: Layer Importance for Mathematical Reasoning is Forged in Pre-Training and Invariant after Post-Training
- arxiv url: http://arxiv.org/abs/2506.22638v1
- Date: Fri, 27 Jun 2025 21:04:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.494745
- Title: Layer Importance for Mathematical Reasoning is Forged in Pre-Training and Invariant after Post-Training
- Title(参考訳): 数学的推論のための層の重要性 : 事前学習とポストトレーニング後の不変性
- Authors: Aadim Nepal, Safal Shrestha, Anubhav Shrestha, Minwu Kim, Keith Ross,
- Abstract要約: 数学的推論は特定の層重み付け構造を生じさせ,この構造は後学習のパラダイム全体にわたって持続することを示す。
事実的リコールのような非数学的なタスクは、重要なレイヤを示さない。
この区別は、数学的推論は事前訓練中に現れる特別な層を必要とするが、他の非推論タスクは必要ではないことを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models can exhibit improved mathematical reasoning capabilities following post-training with instruction tuning, reinforcement learning, or knowledge distillation. However, it remains unclear whether these improvements are driven by major changes in transformer layers or from minor adjustments that leave the relative layer importance structures of the base model largely unchanged. We investigate this question through systematic layer-wise ablation experiments, examining base, instruction-tuned, knowledge-distilled, and reinforcement learning variants on mathematical reasoning benchmarks. Our findings show that mathematical reasoning gives rise to a specific layer importance structure, and this structure persists across all post-training paradigms. Removal of such layers causes accuracy drops of up to 80%. In contrast, non-mathematical tasks like factual recall exhibit no critical layers. This distinction suggests that mathematical reasoning requires specialized layers that emerge during pre-training, while other non-reasoning tasks do not. From an information-theoretic perspective, we also observe that these critical layers are the same layers where major representational transformation occurs.
- Abstract(参考訳): 大規模言語モデルは、指導訓練、強化学習、知識蒸留による訓練後の数学的推論能力の向上を示すことができる。
しかし、これらの改善がトランス層の大きな変化によってもたらされるのか、あるいはベースモデルの相対層重心構造がほとんど変化しないような微調整によってもたらされるのかは不明である。
本研究では, 数学的推論のベンチマークにおいて, 階層的アブレーション実験, 基礎, 指導指導, 知識の希薄化, 強化学習の変種について検討する。
本研究は, 数学的推論により, 特定の層構造が生じることを示し, この構造は, 学習後パラダイム全体にわたって持続することを示した。
このような層を除去すると、精度は最大80%低下する。
対照的に、事実的リコールのような非数学的タスクは、重要なレイヤを示さない。
この区別は、数学的推論が事前学習中に現れる特別な層を必要とすることを示唆している。
情報理論の観点からは、これらの重要な層が大きな表現変換が起こるのと同じ層であることも観察できる。
関連論文リスト
- Towards the Training of Deeper Predictive Coding Neural Networks [53.15874572081944]
平衡伝播で訓練された予測符号化ネットワークは、反復エネルギープロセスを通じて推論を行うニューラルネットワークである。
従来の研究では、浅層建築において効果が示されたが、深さが5層から7層を超えると性能が著しく低下した。
この劣化の原因は,重み更新時の層間エラーの指数的不均衡化と,より深い層内の更新を導く上で,前層からの予測が有効でないことにある。
論文 参考訳(メタデータ) (2025-06-30T12:44:47Z) - How Do Training Methods Influence the Utilization of Vision Models? [23.41975772383921]
すべての学習可能なパラメータが、ニューラルネットワークの決定関数に等しく寄与するわけではない。
アーキテクチャとタスクの複雑さがこの現象にどのように影響するかを調べる以前の研究を再考する。
本研究により, 学習手法は, 与えられた課題に対する決定関数にどの層が重要になるかに強く影響を与えることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-18T13:54:46Z) - Distributional Associations vs In-Context Reasoning: A Study of Feed-forward and Attention Layers [49.80959223722325]
本研究では,大規模言語モデルにおけるフィードフォワード層とアテンション層との区別について検討する。
フィードフォワード層はビッグラムのような単純な分布関係を学習する傾向があり、注意層は文脈内推論にフォーカスする。
論文 参考訳(メタデータ) (2024-06-05T08:51:08Z) - On the Generalization Ability of Unsupervised Pretraining [53.06175754026037]
教師なし学習の最近の進歩は、教師なし事前学習、および微調整がモデル一般化を改善することを示している。
本稿では、教師なし事前学習中に得られた知識の伝達可能性に影響を及ぼす重要な要因をその後の微調整フェーズに照らす新しい理論的枠組みを提案する。
この結果は教師なし事前学習と微調整のパラダイムの理解を深め、より効果的な事前学習アルゴリズムの設計に光を当てることができる。
論文 参考訳(メタデータ) (2024-03-11T16:23:42Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - What Happens During Finetuning of Vision Transformers: An Invariance
Based Investigation [7.432224771219168]
Pretrain-finetuneパラダイムは、通常、同じタスクでモデルをスクラッチからトレーニングするよりも、下流のパフォーマンスを改善する。
本研究では,事前学習した視覚変換器とそれに対応する微調整バージョンとの関係を,複数のベンチマークデータセットとタスクで検討する。
論文 参考訳(メタデータ) (2023-07-12T08:35:24Z) - How Do Transformers Learn Topic Structure: Towards a Mechanistic
Understanding [56.222097640468306]
我々は、トランスフォーマーが「意味構造」を学ぶ方法の機械的理解を提供する
数学的解析とウィキペディアデータの実験を組み合わせることで、埋め込み層と自己保持層がトピック構造をエンコードしていることを示す。
論文 参考訳(メタデータ) (2023-03-07T21:42:17Z) - MetaLR: Meta-tuning of Learning Rates for Transfer Learning in Medical
Imaging [22.203645869758155]
転送学習は、限られた医療データに基づいて、ディープニューラルネットワーク(DNN)をうまく一般化するための強力な方法である。
本研究では,メタ学習に基づくLRチューナであるMetaLRを提案する。
様々な医学応用に関する大規模な実験により、MetaLRは従来のSOTA(State-of-the-art)ファインチューニング戦略よりも優れていたことが示されている。
論文 参考訳(メタデータ) (2022-06-03T06:31:11Z) - Conflicting Bundles: Adapting Architectures Towards the Improved
Training of Deep Neural Networks [1.7188280334580195]
トレーニングされたモデルのテスト精度を低下させるレイヤを特定するために,新しい理論と計量を導入する。
矛盾するトレーニングバンドルを生成するため、パフォーマンスを悪化させるこれらのレイヤを特定します。
これらの結果に基づき、性能低下層を自動的に除去する新しいアルゴリズムが導入された。
論文 参考訳(メタデータ) (2020-11-05T16:41:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。