論文の概要: TeRA: Vector-based Random Tensor Network for High-Rank Adaptation of Large Language Models
- arxiv url: http://arxiv.org/abs/2509.03234v1
- Date: Wed, 03 Sep 2025 11:46:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.499431
- Title: TeRA: Vector-based Random Tensor Network for High-Rank Adaptation of Large Language Models
- Title(参考訳): TeRA:大規模言語モデルの高速適応のためのベクトルベースランダムテンソルネットワーク
- Authors: Yuxuan Gu, Wuyang Zhou, Giorgos Iacovides, Danilo Mandic,
- Abstract要約: ベクトルベースでランダムなアンダーラインセンタbfTensorネットワークを,高アンダーラインセンタbfRankアンダーラインセンタbfAdaptation (TeRA) に提案する。
これは、テンソル化重み更新行列をタッカー様テンソルネットワーク(TN)としてパラメータ化することで達成される。
実験により、TeRAはベクトルベースの手法と同様のトレーニング可能なパラメータ数を必要としながら、上位アダプタにマッチし、さらに性能も向上することが示された。
- 参考スコア(独自算出の注目度): 6.968486021891596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parameter-Efficient Fine-Tuning (PEFT) methods, such as Low-Rank Adaptation (LoRA), have significantly reduced the number of trainable parameters needed in fine-tuning large language models (LLMs). Subsequent developments of LoRA-style adapters have diverged into two main directions: (1) enhancing model expressivity with high-rank adapters, and (2) pushing for further parameter reduction, as exemplified by vector-based methods. However, these approaches present a trade-off, as achieving the expressivity of high-rank weight updates typically comes at the cost of sacrificing the extreme parameter efficiency offered by vector-based techniques. To address this issue, we propose a vector-based random \underline{\textbf{Te}}nsor network for high-\underline{\textbf{R}}ank \underline{\textbf{A}}daptation (TeRA), a novel PEFT method that achieves high-rank weight updates while retaining the parameter efficiency of vector-based PEFT adapters. This is achieved by parameterizing the tensorized weight update matrix as a Tucker-like tensor network (TN), in which large randomly initialized factors are frozen and shared across layers, while only small layer-specific scaling vectors, formed by entries in diagonal factor matrices, are trained. This design effectively decouples the rank of the weight update matrix from the number of trainable parameters. Comprehensive experiments demonstrate that TeRA matches or even outperforms high-rank adapters, while requiring a trainable parameter count similar to vector-based methods. Theoretical analysis and ablation studies further validate the effectiveness of our approach.
- Abstract(参考訳): Low-Rank Adaptation (LoRA) のようなパラメータ効率の良い細調整(PEFT)手法は、微調整の大きな言語モデル(LLM)に必要なトレーニング可能なパラメータの数を著しく減らした。
その後のLoRA型アダプタの開発は,(1)高階アダプタによるモデル表現性の向上,(2)ベクトルベース手法で実証したパラメータ削減の推進,の2つの方向へと変化した。
しかしながら、これらの手法は、高階重量更新の表現性を達成するには、ベクトルベースの手法によって提供される極端なパラメータ効率を犠牲にするコストがかかるため、トレードオフをもたらす。
この問題を解決するために,ベクトルベースのPEFTアダプタのパラメータ効率を維持しつつ,高階重み更新を実現する新しいPEFT法である,高階高階高階高階高階高階高階高階高階高階高階高階高階高階高階高階高階高階高階高階高階高階高階高階高階高階高階高階高階高階高階高階高階高階高階高階高階高階高階化法を提案する。
これは、テンソル化重み更新行列をタッカー様テンソルネットワーク(TN)としてパラメータ化することで実現され、大きなランダム初期化因子が層間で凍結して共有され、対角係数行列のエントリによって形成される小さな層固有のスケーリングベクトルのみが訓練される。
この設計は、トレーニング可能なパラメータの数から重み更新行列のランクを効果的に分離する。
総合的な実験により、TeRAはベクトルベースの手法と同様の訓練可能なパラメータ数を必要とする一方で、高階アダプタと一致し、さらに性能も向上することが示された。
理論的解析およびアブレーション研究は、我々のアプローチの有効性をさらに検証する。
関連論文リスト
- LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、PEFT (Efficient Fine Tuning) 法として人気がある。
よりコンパクトで柔軟な表現を可能にする高階Candecomp/Parafac(CP)分解を提案する。
本手法は,比較性能を維持しつつパラメータ数を削減できる。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z) - NEAT: Nonlinear Parameter-efficient Adaptation of Pre-trained Models [26.808251361020066]
微調整された事前学習モデルは、しばしば最先端のパフォーマンスをもたらすが、全てのパラメータを更新する際に計算コストがかかる。
本稿では,軽量ニューラルネットワークを用いた非線形PEFT手法NEATを提案し,事前学習した重みの非線形変換を学習する。
理論解析により, NEATは等価な表現性を維持しつつ, LoRA よりも高い効率を達成することが示された。
論文 参考訳(メタデータ) (2024-10-02T17:29:23Z) - Spectrum-Aware Parameter Efficient Fine-Tuning for Diffusion Models [73.88009808326387]
生成モデルのための新しいスペクトル対応適応フレームワークを提案する。
本手法は,事前学習した重みの特異値とその基底ベクトルを調節する。
本稿では,計算効率と表現能力のバランスをとるスペクトルオーソ分解適応(SODA)を提案する。
論文 参考訳(メタデータ) (2024-05-31T17:43:35Z) - WeGeFT: Weight-Generative Fine-Tuning for Multi-Faceted Efficient Adaptation of Large Models [8.481707805559589]
WeGeFT(Weight-Generative Fine-Tuning)は、トレーニング済みの重みから直接微調整重みを生成することを学習する新しい手法である。
この設計は、パラメータ、表現、計算、メモリの多面的効率を実現し、LoRAとその変種の性能を維持したり、超えたりしている。
論文 参考訳(メタデータ) (2023-12-01T16:33:57Z) - AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning [143.23123791557245]
下流タスクで訓練済みの大規模言語モデルを微調整することは、NLPにおいて重要なパラダイムとなっている。
重み行列のパラメータ予算をその重要度に応じて適応的に割り当てるAdaLoRAを提案する。
我々は,AdaLoRAの有効性を検証するために,自然言語処理,質問応答,自然言語生成に関する事前学習モデルを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-03-18T22:36:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。