論文の概要: Singular Value Decomposition on Kronecker Adaptation for Large Language Model
- arxiv url: http://arxiv.org/abs/2506.15251v1
- Date: Wed, 18 Jun 2025 08:28:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.594663
- Title: Singular Value Decomposition on Kronecker Adaptation for Large Language Model
- Title(参考訳): 大規模言語モデルに対するKronecker適応の特異値分解
- Authors: Yee Hin Chong, Peng Qu,
- Abstract要約: 大規模な事前訓練されたトランスフォーマーモデルは、様々な言語や推論タスクにまたがって最先端の結果が得られる。
完全な微調整は、かなりのストレージ、メモリ、計算オーバーヘッドを発生させる。
我々は, Kronecker-product tensor factorization と SVD-driven initialization と Dynamic rank selection を組み合わせた新しい PEFT 戦略である SoKA を提案する。
- 参考スコア(独自算出の注目度): 0.8747606955991707
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large pre-trained Transformer models achieve state-of-the-art results across diverse language and reasoning tasks, but full fine-tuning incurs substantial storage, memory, and computational overhead. Parameter-efficient fine-tuning (PEFT) methods mitigate these costs by learning only a small subset of task-specific parameters, yet existing approaches either introduce inference-time latency (adapter modules), suffer from suboptimal convergence (randomly initialized low-rank updates), or rely on fixed rank choices that may not match task complexity (Kronecker-based decompositions). We propose SoKA (SVD on Kronecker Adaptation), a novel PEFT strategy that combines Kronecker-product tensor factorization with SVD-driven initialization and spectrum-aware dynamic rank selection. Our Kronecker-Product SVD (KPSVD) procedure extracts principal components of the full weight update into compact Kronecker factors, while an adaptive rank selection algorithm uses energy-threshold and elbow-point criteria to prune negligible components. Empirical evaluation on LLaMA2-7B across arithmetic reasoning (GSM8K), formal mathematics (MATH), and code generation (MBPP) demonstrates that SoKA requires only 0.99M trainable parameters, 25% fewer than LoRA/PiSSA, while matching or exceeding baseline performance. Moreover, SoKA exhibits faster convergence and more stable gradients, highlighting its robustness and efficiency for large-scale model adaptation.
- Abstract(参考訳): 大規模な事前訓練されたTransformerモデルは、様々な言語や推論タスクにまたがって最先端の結果を得るが、完全な微調整は、かなりのストレージ、メモリ、計算オーバーヘッドを引き起こす。
パラメータ効率のよい微調整(PEFT)手法は、タスク固有のパラメータの小さなサブセットだけを学習することでこれらのコストを軽減するが、既存のアプローチでは推論時レイテンシ(アダプタモジュール)を導入し、最適下限収束(ランダムに初期化低ランク更新)に悩まされるか、あるいはタスクの複雑さにマッチしない固定階数選択に依存する(Kroneckerベースの分解)。
我々は,Kronecker-product tensor factorization と SVD-driven initialization とスペクトル対応動的ランク選択を組み合わせた新しいPEFT戦略である SoKA (SVD on Kronecker Adaptation) を提案する。
KPSVD(Kronecker-Product SVD)法では,全重量更新の主成分をコンパクトなKronecker因子に抽出し,適応的なランク選択アルゴリズムではエネルギー閾値と肘点基準を用いて無視可能な成分を抽出する。
算術的推論(GSM8K)、形式数学(MATH)、コード生成(MBPP)によるLLaMA2-7Bの実証的な評価は、SoKAがベースライン性能を一致または超えながら、LoRA/PiSSAよりも25%少ない0.99Mのトレーニング可能なパラメータしか必要としないことを示した。
さらに、SoKAはより高速な収束とより安定した勾配を示し、その堅牢性と大規模モデル適応の効率を強調している。
関連論文リスト
- Dynamic Context-oriented Decomposition for Task-aware Low-rank Adaptation with Less Forgetting and Faster Convergence [131.41894248194995]
タスク認識方式でアダプタを初期化する新しい手法であるコンテキスト指向分解適応(CorDA)を提案する。
本手法は,タスク認識により,知識保存モード (KPM) と命令レビューモード (IPM) の2つのオプション適応モードを実現する。
論文 参考訳(メタデータ) (2025-06-16T07:55:14Z) - OSoRA: Output-Dimension and Singular-Value Initialized Low-Rank Adaptation [9.048461365342204]
大規模言語モデル(LLM)のための新しいPEFT法であるOSoRAを提案する。
OSoRAは、微調整中にトレーニング可能なパラメータの数を最小化することで、計算リソースの要求を大幅に削減する。
数学的推論、常識推論、その他のベンチマークの総合的な評価は、OSoRAが最先端の手法と同等または優れた性能を達成していることを示している。
論文 参考訳(メタデータ) (2025-05-20T13:34:06Z) - Optimizing Singular Spectrum for Large Language Model Compression [95.7621116637755]
SVDの分解したコンポーネントをデータ駆動で再スケールする新しい圧縮フレームワークであるSoCoを紹介する。
学習可能な特異スペクトルのおかげで、SoCoは重要度スコアに応じて成分を適応的にプーンする。
複数のLLMおよびベンチマークでの実験的な評価は、SoCoがモデル圧縮における最先端の手法を超越していることを示している。
論文 参考訳(メタデータ) (2025-02-20T23:18:39Z) - tCURLoRA: Tensor CUR Decomposition Based Low-Rank Parameter Adaptation and Its Application in Medical Image Segmentation [1.3281936946796913]
伝達学習は、事前訓練されたモデルからの知識を活用することで、目標タスクの性能を大幅に向上させた。
ディープニューラルネットワークのスケールアップに伴って、フル微調整によって、計算とストレージの大幅な課題がもたらされる。
テンソルCUR分解に基づく新しい微調整法であるtCURLoRAを提案する。
論文 参考訳(メタデータ) (2025-01-04T08:25:32Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、PEFT (Efficient Fine Tuning) 法として人気がある。
よりコンパクトで柔軟な表現を可能にする高階Candecomp/Parafac(CP)分解を提案する。
本手法は,比較性能を維持しつつパラメータ数を削減できる。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z) - SARA: Singular-Value Based Adaptive Low-Rank Adaption [4.135688713311511]
パラメータ効率のよい微細チューニング(PEFT)手法としてのLoRAは、推論オーバーヘッドを加算しないために広く用いられている。
本研究ではまず,各層の性能とランクの関係をSVDを用いて解析する。
これに基づいてSARA(Singular-Value Based Adaptive Low-Rank Adaption)を設計する。
論文 参考訳(メタデータ) (2024-08-06T16:39:42Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Numerical Optimizations for Weighted Low-rank Estimation on Language
Model [73.12941276331316]
Singular value decomposition (SVD) は、より小さい行列でターゲット行列を近似する最も一般的な圧縮手法の1つである。
標準SVDは行列内のパラメータを同じ重要性で扱うが、これは単純だが非現実的な仮定である。
本手法は,ニューラルベース言語モデルにおいて,現在のSOTA法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-02T00:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。