Fugu-MT 論文翻訳(概要): Singular Value Decomposition on Kronecker Adaptation for Large Language Model

論文の概要: Singular Value Decomposition on Kronecker Adaptation for Large Language Model

arxiv url: http://arxiv.org/abs/2506.15251v1
Date: Wed, 18 Jun 2025 08:28:53 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-19 19:35:51.594663
Title: Singular Value Decomposition on Kronecker Adaptation for Large Language Model
Title（参考訳）: 大規模言語モデルに対するKronecker適応の特異値分解
Authors: Yee Hin Chong, Peng Qu,
Abstract要約: 大規模な事前訓練されたトランスフォーマーモデルは、様々な言語や推論タスクにまたがって最先端の結果が得られる。完全な微調整は、かなりのストレージ、メモリ、計算オーバーヘッドを発生させる。我々は, Kronecker-product tensor factorization と SVD-driven initialization と Dynamic rank selection を組み合わせた新しい PEFT 戦略である SoKA を提案する。
参考スコア（独自算出の注目度）: 0.8747606955991707
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Large pre-trained Transformer models achieve state-of-the-art results across diverse language and reasoning tasks, but full fine-tuning incurs substantial storage, memory, and computational overhead. Parameter-efficient fine-tuning (PEFT) methods mitigate these costs by learning only a small subset of task-specific parameters, yet existing approaches either introduce inference-time latency (adapter modules), suffer from suboptimal convergence (randomly initialized low-rank updates), or rely on fixed rank choices that may not match task complexity (Kronecker-based decompositions). We propose SoKA (SVD on Kronecker Adaptation), a novel PEFT strategy that combines Kronecker-product tensor factorization with SVD-driven initialization and spectrum-aware dynamic rank selection. Our Kronecker-Product SVD (KPSVD) procedure extracts principal components of the full weight update into compact Kronecker factors, while an adaptive rank selection algorithm uses energy-threshold and elbow-point criteria to prune negligible components. Empirical evaluation on LLaMA2-7B across arithmetic reasoning (GSM8K), formal mathematics (MATH), and code generation (MBPP) demonstrates that SoKA requires only 0.99M trainable parameters, 25% fewer than LoRA/PiSSA, while matching or exceeding baseline performance. Moreover, SoKA exhibits faster convergence and more stable gradients, highlighting its robustness and efficiency for large-scale model adaptation.
Abstract（参考訳）: 大規模な事前訓練されたTransformerモデルは、様々な言語や推論タスクにまたがって最先端の結果を得るが、完全な微調整は、かなりのストレージ、メモリ、計算オーバーヘッドを引き起こす。パラメータ効率のよい微調整(PEFT)手法は、タスク固有のパラメータの小さなサブセットだけを学習することでこれらのコストを軽減するが、既存のアプローチでは推論時レイテンシ(アダプタモジュール)を導入し、最適下限収束(ランダムに初期化低ランク更新)に悩まされるか、あるいはタスクの複雑さにマッチしない固定階数選択に依存する(Kroneckerベースの分解)。我々は,Kronecker-product tensor factorization と SVD-driven initialization とスペクトル対応動的ランク選択を組み合わせた新しいPEFT戦略である SoKA (SVD on Kronecker Adaptation) を提案する。 KPSVD(Kronecker-Product SVD)法では,全重量更新の主成分をコンパクトなKronecker因子に抽出し,適応的なランク選択アルゴリズムではエネルギー閾値と肘点基準を用いて無視可能な成分を抽出する。算術的推論(GSM8K)、形式数学(MATH)、コード生成(MBPP)によるLLaMA2-7Bの実証的な評価は、SoKAがベースライン性能を一致または超えながら、LoRA/PiSSAよりも25%少ない0.99Mのトレーニング可能なパラメータしか必要としないことを示した。さらに、SoKAはより高速な収束とより安定した勾配を示し、その堅牢性と大規模モデル適応の効率を強調している。

関連論文リスト

MoKA: Mixture of Kronecker Adapters [10.972403518731639]
低ランクなファミリーアダプタは、大きな言語モデルの生成能力を保ちながらパラメータサイズを効率的に制御するために一般的に使用される。そこで我々は,Kronecker 製品の混合として重み更新をモデル化することにより,この制限に対処する新世代の Kronecker アダプタを提案する。我々はLLaMA2-7BモデルとLLaMA3-8Bモデルの低ビット量子化バージョンを用いた命令調整および常識推論タスクの広範な実験を行った。
論文参考訳（メタデータ） (2025-08-05T14:58:14Z)
Dynamic Context-oriented Decomposition for Task-aware Low-rank Adaptation with Less Forgetting and Faster Convergence [131.41894248194995]
タスク認識方式でアダプタを初期化する新しい手法であるコンテキスト指向分解適応(CorDA)を提案する。本手法は,タスク認識により,知識保存モード (KPM) と命令レビューモード (IPM) の2つのオプション適応モードを実現する。
論文参考訳（メタデータ） (2025-06-16T07:55:14Z)
OSoRA: Output-Dimension and Singular-Value Initialized Low-Rank Adaptation [9.048461365342204]
大規模言語モデル(LLM)のための新しいPEFT法であるOSoRAを提案する。 OSoRAは、微調整中にトレーニング可能なパラメータの数を最小化することで、計算リソースの要求を大幅に削減する。数学的推論、常識推論、その他のベンチマークの総合的な評価は、OSoRAが最先端の手法と同等または優れた性能を達成していることを示している。
論文参考訳（メタデータ） (2025-05-20T13:34:06Z)
FedSVD: Adaptive Orthogonalization for Private Federated Learning with LoRA [61.79405341803085]
低ランク適応(LoRA)は、フェデレートラーニング(FL)における言語モデルの効率的な微調整に広く用いられている。低ランク適応(LoRA)は、フェデレートラーニング(FL)における言語モデルの効率的な微調整に広く用いられている。
論文参考訳（メタデータ） (2025-05-19T07:32:56Z)
Optimizing Singular Spectrum for Large Language Model Compression [95.7621116637755]
SVDの分解したコンポーネントをデータ駆動で再スケールする新しい圧縮フレームワークであるSoCoを紹介する。学習可能な特異スペクトルのおかげで、SoCoは重要度スコアに応じて成分を適応的にプーンする。複数のLLMおよびベンチマークでの実験的な評価は、SoCoがモデル圧縮における最先端の手法を超越していることを示している。
論文参考訳（メタデータ） (2025-02-20T23:18:39Z)
tCURLoRA: Tensor CUR Decomposition Based Low-Rank Parameter Adaptation and Its Application in Medical Image Segmentation [1.3281936946796913]
伝達学習は、事前訓練されたモデルからの知識を活用することで、目標タスクの性能を大幅に向上させた。ディープニューラルネットワークのスケールアップに伴って、フル微調整によって、計算とストレージの大幅な課題がもたらされる。テンソルCUR分解に基づく新しい微調整法であるtCURLoRAを提案する。
論文参考訳（メタデータ） (2025-01-04T08:25:32Z)
ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文参考訳（メタデータ） (2024-12-11T12:31:30Z)
LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、PEFT (Efficient Fine Tuning) 法として人気がある。よりコンパクトで柔軟な表現を可能にする高階Candecomp/Parafac(CP)分解を提案する。本手法は,比較性能を維持しつつパラメータ数を削減できる。
論文参考訳（メタデータ） (2024-10-05T06:59:50Z)
SARA: Singular-Value Based Adaptive Low-Rank Adaption [4.135688713311511]
パラメータ効率のよい微細チューニング(PEFT)手法としてのLoRAは、推論オーバーヘッドを加算しないために広く用いられている。本研究ではまず,各層の性能とランクの関係をSVDを用いて解析する。これに基づいてSARA(Singular-Value Based Adaptive Low-Rank Adaption)を設計する。
論文参考訳（メタデータ） (2024-08-06T16:39:42Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
Numerical Optimizations for Weighted Low-rank Estimation on Language Model [73.12941276331316]
Singular value decomposition (SVD) は、より小さい行列でターゲット行列を近似する最も一般的な圧縮手法の1つである。標準SVDは行列内のパラメータを同じ重要性で扱うが、これは単純だが非現実的な仮定である。本手法は,ニューラルベース言語モデルにおいて,現在のSOTA法よりも優れた性能を示す。
論文参考訳（メタデータ） (2022-11-02T00:58:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。