論文の概要: Weight Spectra Induced Efficient Model Adaptation
- arxiv url: http://arxiv.org/abs/2505.23099v1
- Date: Thu, 29 May 2025 05:03:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.687668
- Title: Weight Spectra Induced Efficient Model Adaptation
- Title(参考訳): 重みスペクトルによる効率的なモデル適応
- Authors: Chongjie Si, Xuankun Yang, Muqing Liu, Yadao Wang, Xiaokang Yang, Wenbo Su, Bo Zheng, Wei Shen,
- Abstract要約: 微調整された大規模な基礎モデルは、計算コストを禁ずる。
微調整が最上位特異値を大きく増幅する一方で,残りはほとんど無傷であることを示す。
本稿では,トップ特異方向の学習可能な再スケーリングを利用する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 54.8615621415845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale foundation models have demonstrated remarkable versatility across a wide range of downstream tasks. However, fully fine-tuning these models incurs prohibitive computational costs, motivating the development of Parameter-Efficient Fine-Tuning (PEFT) methods such as LoRA, which introduces low-rank updates to pre-trained weights. Despite their empirical success, the underlying mechanisms by which PEFT modifies model parameters remain underexplored. In this work, we present a systematic investigation into the structural changes of weight matrices during fully fine-tuning. Through singular value decomposition (SVD), we reveal that fine-tuning predominantly amplifies the top singular values while leaving the remainder largely intact, suggesting that task-specific knowledge is injected into a low-dimensional subspace. Furthermore, we find that the dominant singular vectors are reoriented in task-specific directions, whereas the non-dominant subspace remains stable. Building on these insights, we propose a novel method that leverages learnable rescaling of top singular directions, enabling precise modulation of the most influential components without disrupting the global structure. Our approach achieves consistent improvements over strong baselines across multiple tasks, highlighting the efficacy of structurally informed fine-tuning.
- Abstract(参考訳): 大規模基盤モデルは、広範囲の下流タスクで顕著な汎用性を示している。
しかし、これらのモデルを完全に微調整すると計算コストが禁じられ、LoRAのようなパラメータ効率の良い細調整(PEFT)手法の開発が動機となり、事前訓練された重量に対する低ランクな更新が導入された。
実験的な成功にもかかわらず、PEFTがモデルパラメータを変更する基本的なメカニズムは未解明のままである。
本研究は, 完全微調整時の重量行列の構造変化に関する系統的研究である。
特異値分解(SVD)により、細調整が最上位特異値を主に増幅し、残りの部分はほとんど無傷であることが明らかとなり、タスク固有の知識が低次元部分空間に注入されることが示唆された。
さらに、支配的特異ベクトルはタスク固有の方向で向きを変えられているのに対して、非支配的部分空間は安定である。
これらの知見に基づいて,トップ特異方向の学習可能な再スケーリングを活用し,グローバルな構造を乱すことなく,最も影響力のあるコンポーネントの正確な調整を可能にする手法を提案する。
提案手法は,複数のタスクにまたがる強いベースラインに対する一貫した改善を実現し,構造的情報による微調整の有効性を強調した。
関連論文リスト
- Dual Decomposition of Weights and Singular Value Low Rank Adaptation [9.048461365342204]
重み行列を大きさと方向成分に分解する新しいアプローチであるDuDeを提案する。
評価の結果,MMLUでは48.35%,GSM8Kでは62.53%(pm$1.59)の精度が得られた。
論文 参考訳(メタデータ) (2025-05-20T13:49:15Z) - Generalized Tensor-based Parameter-Efficient Fine-Tuning via Lie Group Transformations [50.010924231754856]
さまざまな下流タスクに事前訓練された基礎モデルを適用することは、人工知能のコアプラクティスである。
これを解決するために、LoRAのようなパラメータ効率細調整(PEFT)手法が登場し、研究の焦点となっている。
本稿では,行列型PEFT法を高次元パラメータ空間に拡張する一般化法を提案する。
論文 参考訳(メタデータ) (2025-04-01T14:36:45Z) - DiffoRA: Enabling Parameter-Efficient LLM Fine-Tuning via Differential Low-Rank Matrix Adaptation [32.369133126167085]
そこで我々は,理論上基礎を成し,モジュールワイドなLoRAを実現する,DiffoRAと呼ばれる新しいPEFT方式を提案する。
DiffoRAの中核には微分適応行列(DAM)があり、どのモジュールが最も適しており、微調整に不可欠かを決定する。
提案手法は,様々なベンチマークにおいて,最先端のベースラインに対して最高のモデル精度を実現する。
論文 参考訳(メタデータ) (2025-02-13T02:41:34Z) - See Further for Parameter Efficient Fine-tuning by Standing on the Shoulders of Decomposition [56.87609859444084]
パラメータ効率の細かいチューニング(PEFT)は、パラメータの選択したサブセットを最適化し、残りを固定し、計算とストレージのオーバーヘッドを大幅に削減することに焦点を当てている。
分解の観点からそれらを分離することで、すべてのアプローチを統一する第一歩を踏み出します。
本稿では,PEFT技術の性能向上を目的とした,単純かつ効果的なフレームワークとともに,新しい2つのPEFT手法を提案する。
論文 参考訳(メタデータ) (2024-07-07T15:44:42Z) - TRAWL: Tensor Reduced and Approximated Weights for Large Language Models [11.064868044313855]
TRAWL (Tensor Reduced and Approximated Weights for Large Language Models) は、複数の重み行列に対してテンソル分解を適用し、大域的な構造パターンを捉えることでLLMを効果的に分解する手法である。
我々の実験によると、TRAWLは、追加のデータやトレーニング、微調整を必要とせず、ベンチマークデータセットのベースラインモデルよりも最大16%モデル性能を向上させる。
論文 参考訳(メタデータ) (2024-06-25T04:01:32Z) - Task Arithmetic in the Tangent Space: Improved Editing of Pre-Trained
Models [96.9373147383119]
重みの絡み合いがタスク算術を効果的にするための重要な要素であることを示す。
それらの接空間における微調整モデルを線形化することにより、重みの絡み合いを増幅することを示した。
これにより、タスク演算ベンチマークや多種多様なモデルで大幅にパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-05-22T08:39:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。