論文の概要: Understanding Post-Training Structural Changes in Large Language Models
- arxiv url: http://arxiv.org/abs/2509.17866v1
- Date: Mon, 22 Sep 2025 15:03:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.45037
- Title: Understanding Post-Training Structural Changes in Large Language Models
- Title(参考訳): 大規模言語モデルにおける学習後構造変化の理解
- Authors: Xinyu He, Xianghui Cao,
- Abstract要約: 後学習は大規模言語モデル(LLM)の振る舞いを根本的に変える
本研究は,指導チューニングと長鎖蒸留(Long-CoT)の2つの広く採用されているポストトレーニング手法に焦点をあてる。
- 参考スコア(独自算出の注目度): 3.054513120350576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Post-training fundamentally alters the behavior of large language models (LLMs), yet its impact on the internal parameter space remains poorly understood. In this work, we conduct a systematic singular value decomposition (SVD) analysis of principal linear layers in pretrained LLMs, focusing on two widely adopted post-training methods: instruction tuning and long-chain-of-thought (Long-CoT) distillation. Our analysis reveals two consistent and unexpected structural changes:(1) a near-uniform geometric scaling of singular values across layers, which theoretically modulates attention scores; and (2) highly consistent orthogonal transformations are applied to the left and right singular vectors of each matrix. Disrupting this orthogonal consistency leads to catastrophic performance degradation. Based on these findings, we propose a simple yet effective framework that interprets post-training as a reparameterization of fixed subspaces in the pretrained parameter space. Further experiments reveal that singular value scaling behaves as a secondary effect, analogous to a temperature adjustment, whereas the core functional transformation lies in the coordinated rotation of singular vectors. These results challenge the prevailing view of the parameter space in large models as a black box, uncovering the first clear regularities in how parameters evolve during training, and providing a new perspective for deeper investigation into model parameter changes.
- Abstract(参考訳): ポストトレーニングは、大きな言語モデル(LLM)の振る舞いを根本的に変えるが、内部パラメータ空間への影響は理解されていない。
本研究では,Long-CoT (Long-CoT)蒸留法とインストラクション・チューニング・インストラクション・インストラクション・インストラクション・インストラクション・インストラクションの2つの手法に着目し,プリトレーニング済みLLMにおける主線形層の系統的特異値分解(SVD)解析を行う。
解析の結果,(1) 層間の特異値のほぼ均一な幾何的スケーリング,(2) 行列の左右特異ベクトルに対して高度に一貫した直交変換が適用された。
この直交一貫性を乱すことは、破滅的なパフォーマンス低下につながる。
これらの知見に基づき、事前訓練されたパラメータ空間における固定部分空間の再パラメータ化としてポストトレーニングを解釈する、単純で効果的なフレームワークを提案する。
さらなる実験では、特異値のスケーリングは温度調整に類似した二次効果として振る舞うが、中心関数変換は特異ベクトルの座標回転にある。
これらの結果は、大規模モデルにおけるパラメータ空間のブラックボックスとしての一般的な見方に挑戦し、トレーニング中にパラメータがどのように進化するかの最初の明確な規則性を明らかにし、モデルパラメータの変化についてより深く研究するための新たな視点を提供する。
関連論文リスト
- Time-Scale Coupling Between States and Parameters in Recurrent Neural Networks [3.924071936547547]
ゲーテッドニューラルネットワーク(RNN)は、適応的な学習速度の振る舞いを暗黙的に誘発する。
効果は状態空間の時間スケールとパラメータ空間のダイナミクスの結合から生じる。
経験的シミュレーションはこれらの主張を裏付ける。
論文 参考訳(メタデータ) (2025-08-16T18:19:34Z) - Generalized Linear Mode Connectivity for Transformers [87.32299363530996]
驚くべき現象はリニアモード接続(LMC)であり、独立に訓練されたモデルを低損失またはゼロ損失の経路で接続することができる。
以前の研究は主に置換によるニューロンの並べ替えに焦点を合わせてきたが、そのようなアプローチは範囲に限られている。
我々は、4つの対称性クラス(置換、半置換、変換、一般可逆写像)をキャプチャする統一的なフレームワークを導入する。
この一般化により、独立に訓練された視覚変換器とGPT-2モデルの間の低障壁とゼロバリア線形経路の発見が可能となった。
論文 参考訳(メタデータ) (2025-06-28T01:46:36Z) - PAID: Pairwise Angular-Invariant Decomposition for Continual Test-Time Adaptation [70.98107766265636]
本稿では,事前学習した重みの幾何学的特性を出発点として,3つの重要な成分(等級,絶対角,対角構造)を体系的に解析する。
両角構造は多種多様なドメインにわたって安定であり, ドメイン不変な意味情報を符号化し, 適応中に保存すべきことを示唆する。
論文 参考訳(メタデータ) (2025-06-03T05:18:15Z) - Weight Spectra Induced Efficient Model Adaptation [54.8615621415845]
微調整された大規模な基礎モデルは、計算コストを禁ずる。
微調整が最上位特異値を大きく増幅する一方で,残りはほとんど無傷であることを示す。
本稿では,トップ特異方向の学習可能な再スケーリングを利用する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-05-29T05:03:29Z) - Generalized Tensor-based Parameter-Efficient Fine-Tuning via Lie Group Transformations [50.010924231754856]
さまざまな下流タスクに事前訓練された基礎モデルを適用することは、人工知能のコアプラクティスである。
これを解決するために、LoRAのようなパラメータ効率細調整(PEFT)手法が登場し、研究の焦点となっている。
本稿では,行列型PEFT法を高次元パラメータ空間に拡張する一般化法を提案する。
論文 参考訳(メタデータ) (2025-04-01T14:36:45Z) - On the Emergence of Cross-Task Linearity in the Pretraining-Finetuning Paradigm [47.55215041326702]
我々は、共通の事前訓練されたチェックポイントから、クロスタスク線形性(CTL)と呼ばれる異なるタスクに微調整されたモデルにおいて、興味深い線形現象を発見する。
2つの微調整モデルの重みを線形に補間すると、重み補間モデルの特徴は各層における2つの微調整モデルの特徴の線形性にほぼ等しいことが示される。
プレトレーニング-ファインタニングのパラダイムでは、ニューラルネットワークは、パラメータ空間から特徴空間への写像である線形写像として概ね機能する。
論文 参考訳(メタデータ) (2024-02-06T03:28:36Z) - Analysis of Catastrophic Forgetting for Random Orthogonal Transformation
Tasks in the Overparameterized Regime [9.184987303791292]
可変MNIST画像分類タスクでは,バニラ勾配降下により訓練された多層パーセプトロンの性能を向上させることができることを示す。
定性的に類似した2タスク線形回帰問題を研究することによって、この効果を理論的に説明する。
モデルが追加の正規化なしで連続的に2つのタスクで訓練された場合、最初のタスクのリスクゲインは小さくなることを示す。
論文 参考訳(メタデータ) (2022-06-01T18:04:33Z) - Deformation Robust Roto-Scale-Translation Equivariant CNNs [10.44236628142169]
グループ同変畳み込みニューラルネットワーク(G-CNN)は,固有対称性を持つ一般化性能を著しく向上させる。
G-CNNの一般的な理論と実践的実装は、回転またはスケーリング変換の下での平面画像に対して研究されている。
論文 参考訳(メタデータ) (2021-11-22T03:58:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。