論文の概要: LORA-CRAFT: Cross-layer Rank Adaptation via Frozen Tucker Decomposition of Pre-trained Attention Weights
- arxiv url: http://arxiv.org/abs/2602.17510v1
- Date: Thu, 19 Feb 2026 16:22:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:29.206297
- Title: LORA-CRAFT: Cross-layer Rank Adaptation via Frozen Tucker Decomposition of Pre-trained Attention Weights
- Title(参考訳): LORA-CRAFT:凍結タッカー分解による事前学習姿勢重みの層間ランク適応
- Authors: Kasun Dewage, Marianna Pensky, Suranadi De Silva, Shankadeep Mondal,
- Abstract要約: CRAFT (Cross-layer Rank Adaptation via Frozen Tucker) は、タッカーテンソル分解を事前学習した注目重量行列に適用するパラメータ効率のよい微調整法である。
RoBERTa-baseとRoBERTa-largeを用いたGLUEベンチマークの実験は、CRAFTが既存の手法と競合する性能を発揮することを示した。
- 参考スコア(独自算出の注目度): 0.9624643581968987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce CRAFT (Cross-layer Rank Adaptation via Frozen Tucker), a parameter-efficient fine-tuning (PEFT) method that applies Tucker tensor decomposition to pre-trained attention weight matrices stacked across transformer layers and trains only small square adaptation matrices on the resulting frozen Tucker factors. Existing tensor-based PEFT methods decompose gradient updates: LoTR applies Tucker decomposition with shared factor matrices, while SuperLoRA groups and reshapes $ΔW$ across layers before applying Tucker decomposition. Separately, methods like PiSSA apply SVD to pre-trained weights but operate independently per layer. CRAFT bridges these two lines of work: it performs full Tucker decomposition via Higher-Order SVD (HOSVD) directly on pre-trained weights organized as cross-layer 3D tensors, freezes all resulting factors, and adapts the model through lightweight trainable transformations applied to each factor matrix. Experiments on the GLUE benchmark using RoBERTa-base and RoBERTa-large demonstrate that CRAFT achieves competitive performance with existing methods while requiring only 41K Tucker adaptation parameters--a count independent of model dimension and depth at fixed Tucker ranks.
- Abstract(参考訳): CRAFT (Cross-layer Rank Adaptation via Frozen Tucker) は,変圧器層に積層された事前学習された注目重量行列にタッカーテンソル分解を適用し,凍結したタッカー因子に対して小さな正方形適応行列のみを訓練するパラメータ効率の良い微調整法である。
既存のテンソルベースのPEFTメソッドは、勾配の更新を分解する: LoTRは、共有係数行列でTucker分解を適用し、SuperLoRAは、Tucker分解を適用する前に、レイヤ間で$ΔW$を再設定する。
分離して、PiSSAのような方法は、SVDを事前訓練された重量に適用するが、層ごとに独立して動作させる。
CRAFTはこれらの2つの行を橋渡しする: 高次SVD(HOSVD)を介して、クロス層3Dテンソルとして組織された事前訓練された重みに直接タッカー分解を行い、すべての要因を凍結し、各因子行列に適用された軽量なトレーニング可能な変換によってモデルを適応させる。
RoBERTa-baseとRoBERTa-largeを用いたGLUEベンチマークの実験では、CRAFTは既存の手法と競合し、タッカー適応パラメータは41Kである。
関連論文リスト
- TuckA: Hierarchical Compact Tensor Experts for Efficient Fine-Tuning [83.93651411533533]
4つのキー特性を持つTucker Adaptation(TuckA)を導入する。
我々は,ルータのパラメータサイズを$L$の係数で削減する,効率的なバッチレベルルーティング機構を開発した。
自然言語理解、画像分類、数学的推論におけるベンチマーク実験は、TuckAの有効性を物語っている。
論文 参考訳(メタデータ) (2025-11-10T09:03:16Z) - TeRA: Vector-based Random Tensor Network for High-Rank Adaptation of Large Language Models [6.968486021891596]
ベクトルベースでランダムなアンダーラインセンタbfTensorネットワークを,高アンダーラインセンタbfRankアンダーラインセンタbfAdaptation (TeRA) に提案する。
これは、テンソル化重み更新行列をタッカー様テンソルネットワーク(TN)としてパラメータ化することで達成される。
実験により、TeRAはベクトルベースの手法と同様のトレーニング可能なパラメータ数を必要としながら、上位アダプタにマッチし、さらに性能も向上することが示された。
論文 参考訳(メタデータ) (2025-09-03T11:46:24Z) - Efficient Adaptation of Pre-trained Vision Transformer via Householder Transformation [53.88562288388169]
一般的な戦略である。
事前訓練された視覚変換器(ViT)のPEFT(Efficient Fine-Tuning)は、下流タスクにモデルを適応させる。
適応行列を表現するために,Singular Value Decomposition (SVD) にインスパイアされた新しいPEFT手法を提案する。
SVDは行列を左ユニタリ行列、スケーリング値の対角行列、右ユニタリ行列の積に分解する。
論文 参考訳(メタデータ) (2024-10-30T12:08:30Z) - LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、PEFT (Efficient Fine Tuning) 法として人気がある。
よりコンパクトで柔軟な表現を可能にする高階Candecomp/Parafac(CP)分解を提案する。
本手法は,比較性能を維持しつつパラメータ数を削減できる。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z) - Revisiting Trace Norm Minimization for Tensor Tucker Completion: A Direct Multilinear Rank Learning Approach [22.740653766104153]
本論文では、タッカー完備化におけるトレースノルムに基づく定式化は、多重線型階数最小化において非効率であることを示す。
等価表現の係数行列にトレースノルム最小化を適用するタッカー形式の新しい解釈を提案する。
数値的な結果から,提案アルゴリズムは多線形階数学習における性能が著しく向上していることが示唆された。
論文 参考訳(メタデータ) (2024-09-08T15:44:00Z) - LoTR: Low Tensor Rank Weight Adaptation [47.4904143988667]
大規模言語モデル(LLM)のパラメータ効率向上のための新しいアプローチであるLoTRを導入する。
LoTRはテンソル分解の形でパラメータの勾配更新を表す。
低ランクテンソル表現を持つ層列の同時圧縮により、LoTRはより優れたパラメータ効率をアーカイブできる。
論文 参考訳(メタデータ) (2024-02-02T13:00:38Z) - Dynamic Layer Tying for Parameter-Efficient Transformers [65.268245109828]
トレーニング中にレイヤを選択し、それらを結びつけるために強化学習を採用しています。
これにより、重量共有が容易になり、トレーニング可能なパラメータの数を減らし、効果的な正規化技術としても機能する。
特に、トレーニング中のメモリ消費は、従来のトレーニング方法よりも1桁も少ない。
論文 参考訳(メタデータ) (2024-01-23T14:53:20Z) - Geometry-aware training of factorized layers in tensor Tucker format [6.701651480567394]
重みテンソルのタッカー分解の要因を学習するための新しい手法を提案する。
トレーニングの提案は, 元の非リファクタリング力学を局所的に近似する上で最適であることが証明された。
本稿では,アルゴリズムの理論解析を行い,収束,近似,局所降下保証を示す。
論文 参考訳(メタデータ) (2023-05-30T14:20:51Z) - Spectral Tensor Train Parameterization of Deep Learning Layers [136.4761580842396]
重み行列の低ランクパラメータ化をDeep Learningコンテキストに埋め込まれたスペクトル特性を用いて検討する。
分類設定におけるニューラルネットワーク圧縮の効果と,生成的対角トレーニング設定における圧縮および安定性トレーニングの改善について述べる。
論文 参考訳(メタデータ) (2021-03-07T00:15:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。