論文の概要: MetaTT: A Global Tensor-Train Adapter for Parameter-Efficient Fine-Tuning
- arxiv url: http://arxiv.org/abs/2506.09105v1
- Date: Tue, 10 Jun 2025 16:32:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:01.738789
- Title: MetaTT: A Global Tensor-Train Adapter for Parameter-Efficient Fine-Tuning
- Title(参考訳): MetaTT:パラメータ効率の良いファインチューニングのためのグローバルテンソルトレインアダプタ
- Authors: Javier Lopez-Piqueres, Pranav Deshpande, Archan Ray, Mattia J. Villani, Marco Pistoia, Niraj Kumar,
- Abstract要約: プリトレーニングトランスのグローバル低ランク微調整のための統合TrainアダプタフレームワークであるMetaTTを提案する。
個々の重み行列を独立に微調整するLoRAとは異なり、MetaTTは単一の共有TTを使用してすべてのトランスフォーマーサブモジュールを分解する。
我々のベンチマークはMetaTTとLoRAを比較し、最近の最先端行列とテンソル分解に基づく微調整スキームを比較した。
- 参考スコア(独自算出の注目度): 2.340109012177727
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present MetaTT, a unified Tensor Train (TT) adapter framework for global low-rank fine-tuning of pre-trained transformers. Unlike LoRA, which fine-tunes each weight matrix independently, MetaTT uses a single shared TT to factorize all transformer sub-modules -- query, key, value, projection, and feed-forward layers -- by indexing the structural axes like layer and matrix type, and optionally heads and tasks. For a given rank, while LoRA adds parameters proportional to the product across modes, MetaTT only adds parameters proportional to the sum across modes leading to a significantly compressed final adapter. Our benchmarks compare MetaTT with LoRA along with recent state-of-the-art matrix and tensor decomposition based fine-tuning schemes. We observe that when tested on standard language modeling benchmarks, MetaTT leads to the most reduction in the parameters while maintaining similar accuracy to LoRA and even outperforming other tensor-based methods. Unlike CP or other rank-factorizations, the TT ansatz benefits from mature optimization routines -- e.g., DMRG-style rank adaptive minimization in addition to Adam, which we find simplifies training. Because new modes can be appended cheaply, MetaTT naturally extends to shared adapters across many tasks without redesigning the core tensor.
- Abstract(参考訳): 本稿では,事前学習したトランスのグローバルな低ランク微調整のための,TT(Tensor Train)アダプタフレームワークであるMetaTTを提案する。
個々の重量行列を独立して微調整するLoRAとは異なり、MetaTTは単一の共有TTを使用して、すべてのトランスフォーマーサブモジュール(クエリ、キー、値、プロジェクション、フィードフォワード層)を、層やマトリックスタイプなどの構造軸をインデックス化し、任意にヘッダとタスクを分解する。
与えられたランクに対して、LoRAはモード間で製品に比例するパラメータを追加するが、MetaTTはモード間での合計に比例するパラメータのみを追加し、大幅に圧縮された最終アダプタに繋がる。
我々のベンチマークはMetaTTとLoRAを比較し、最近の最先端行列とテンソル分解に基づく微調整スキームを比較した。
標準言語モデリングベンチマークでテストすると、MetaTTはパラメータを最大に削減し、LoRAと類似の精度を維持しながら、他のテンソルベース手法よりも優れていることが分かる。
CPや他の階数分解とは異なり、TTアンザッツはAdamに加えてDMRGスタイルの階数適応最小化など、成熟した最適化ルーチンの恩恵を受ける。
新しいモードを安く追加できるので、MetaTTはコアテンソルを再設計することなく、多くのタスクで共有アダプタに自然に拡張できる。
関連論文リスト
- ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、PEFT (Efficient Fine Tuning) 法として人気がある。
よりコンパクトで柔軟な表現を可能にする高階Candecomp/Parafac(CP)分解を提案する。
本手法は,比較性能を維持しつつパラメータ数を削減できる。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z) - SARA: Singular-Value Based Adaptive Low-Rank Adaption [4.135688713311511]
パラメータ効率のよい微細チューニング(PEFT)手法としてのLoRAは、推論オーバーヘッドを加算しないために広く用いられている。
本研究ではまず,各層の性能とランクの関係をSVDを用いて解析する。
これに基づいてSARA(Singular-Value Based Adaptive Low-Rank Adaption)を設計する。
論文 参考訳(メタデータ) (2024-08-06T16:39:42Z) - Structured Unrestricted-Rank Matrices for Parameter Efficient Fine-tuning [38.80020737321214]
構造化非制限ランク行列(SURM)に基づく効率的なパラメータ微調整(PEFT)のためのフレームワークを提案する。
SURMは、LoRAの低ランク行列を置換しながら、様々な画像分類タスクにおいて5-7%の精度向上を実現している。
また、GLUEベンチマークでは、アダプタのパラメータ数を最大12倍に削減する(ほぼ品質が低下する)。
論文 参考訳(メタデータ) (2024-06-25T17:26:05Z) - MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。
層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。
従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文 参考訳(メタデータ) (2024-05-25T03:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。