論文の概要: Pretraining Induces a Reusable Spectral Basis for Downstream Task Adaptation
- arxiv url: http://arxiv.org/abs/2605.07302v1
- Date: Fri, 08 May 2026 06:12:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.846361
- Title: Pretraining Induces a Reusable Spectral Basis for Downstream Task Adaptation
- Title(参考訳): Pretrainingは、下流タスク適応のための再利用可能なスペクトル基底を誘導する
- Authors: Junjie Yu, Yue Wang, Zihan Deng, Yan Zhu, Wenxiao Ma, Quanying Liu,
- Abstract要約: 微調整事前訓練されたモデルは、全パラメータ空間の低次元部分空間で発生する。
ダウンストリームタスクとは無関係な安定方向か、それとも、追加調整を必要としないタスク関連構造をすでにエンコードしているか?
事前学習した重み行列の先頭特異ベクトルは、微調整の下で非常に安定であり、無関係な下流タスク間で共有されることを示す。
- 参考スコア(独自算出の注目度): 10.547646302449682
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Finetuning pretrained models occurs in a low-dimensional subspace of the full parameter space. Prior work has focused on characterizing this optimization subspace, but largely ignored the complementary question: why do certain directions remain unexplored during finetuning? Are these stable directions irrelevant to downstream tasks, or do they already encode task-relevant structure that requires no further adjustment? Answering this question is central to understanding how pretrained knowledge transfers. Through systematic spectral analysis across vision and language models, we show that the leading singular vectors of pretrained weight matrices remain highly stable under finetuning and are shared across unrelated downstream tasks, revealing that pretraining establishes a reusable spectral coordinate system. Models pretrained on larger datasets exhibit greater spectral stability under distribution shift or task change, directly linking pretraining scale to geometric transferability. Motivated by these findings, we propose a parameter-efficient method that freezes pretrained singular vectors and optimizes only leading spectral coefficients, achieving competitive performance on GLUE with 0.2% trainable parameters. Our results reveal that the stable directions encode transferable structure rather than irrelevant noise: successful pretraining discovers spectral bases that downstream tasks inherit and operate within.
- Abstract(参考訳): 微調整事前訓練されたモデルは、全パラメータ空間の低次元部分空間で発生する。
以前の研究は、この最適化部分空間を特徴づけることに重点を置いていたが、相補的な質問をほとんど無視していた。
これらの安定方向は下流のタスクとは無関係なのか、それとも、それ以上の調整を必要としないタスク関連構造をすでにエンコードしているのだろうか?
この疑問に答えることは、事前訓練された知識の伝達の理解の中心である。
視覚および言語モデル間の系統的なスペクトル分析により、事前学習した重み行列の先頭特異ベクトルは微調整下で高度に安定であり、無関係な下流タスク間で共有されることが示され、事前学習が再利用可能なスペクトル座標系を確立することが明らかとなった。
より大きなデータセットで事前訓練されたモデルでは、分布シフトやタスク変更の下でスペクトル安定性が向上し、事前訓練スケールと幾何学的転送可能性を直接リンクする。
これらの結果から,事前学習した特異ベクトルを凍結し,先行するスペクトル係数のみを最適化し,0.2%のトレーニング可能なパラメータでGLUE上での競合性能を実現するパラメータ効率向上手法を提案する。
本結果より, 定常方向は非関連ノイズではなく伝達可能な構造を符号化していることが明らかとなった。
関連論文リスト
- Basis-Oriented Low-rank Transfer for Few-Shot and Test-Time Adaptation [10.804106052326402]
厳密なデータと計算予算の下で、大きな事前訓練されたモデルを未確認のタスクに適用することは、依然として困難である。
本稿では,既存の微調整モデルを再利用し,そのサブ空間内に適応するフレームワークBOLTを提案する。
本結果は,タスクインフォームド部分空間への制約適応が,目に見えないタスク転送の効果的な代替手段となることを示す。
論文 参考訳(メタデータ) (2025-12-02T06:00:16Z) - Weight Spectra Induced Efficient Model Adaptation [54.8615621415845]
微調整された大規模な基礎モデルは、計算コストを禁ずる。
微調整が最上位特異値を大きく増幅する一方で,残りはほとんど無傷であることを示す。
本稿では,トップ特異方向の学習可能な再スケーリングを利用する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-05-29T05:03:29Z) - Large Continual Instruction Assistant [59.585544987096974]
CIT(Continuous Instruction Tuning)は、大規模モデルにデータによる人間の意図データに従うよう指示するために用いられる。
既存の更新勾配は、CITプロセス中に前のデータセットのパフォーマンスを著しく損なうことになる。
本稿では,この課題に対処する汎用的な連続的命令チューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T11:24:59Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。