Fugu-MT 論文翻訳(概要): DoTA: Weight-Decomposed Tensor Adaptation for Large Language Models

論文の概要: DoTA: Weight-Decomposed Tensor Adaptation for Large Language Models

arxiv url: http://arxiv.org/abs/2412.20891v1
Date: Mon, 30 Dec 2024 12:00:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-31 22:07:02.766818
Title: DoTA: Weight-Decomposed Tensor Adaptation for Large Language Models
Title（参考訳）: DoTA:大規模言語モデルのための軽量分解テンソル適応
Authors: Xiaolin Hu, Xiang Cheng, Peiyu Liu, Wei Liu, Jian Luan, Bin Wang, Yong Liu,
Abstract要約: 低ランク適応(LoRA)は、低ランク行列による更新を近似することにより、微調整された大言語モデル(LLM)の計算とメモリ要求を減らす。本稿では,事前学習した重みの行列積演算子(MPO)分解を利用した重み分解適応(DoTA)を提案する。また、4ビット量子化用に設計されたDoTAの量子化バージョンであるQDoTAを紹介する。
参考スコア（独自算出の注目度）: 33.4538652558253
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Low-rank adaptation (LoRA) reduces the computational and memory demands of fine-tuning large language models (LLMs) by approximating updates with low-rank matrices. However, low-rank approximation in two-dimensional space fails to capture high-dimensional structures within the target matrix. Recently, tensor decomposition methods have been explored for fine-tuning LLMs, leveraging their ability to extract structured information. Yet, these approaches primarily rely on random initialization, and the impact of initialization on tensor adaptation remains underexplored. In this paper, we reveal that random initialization significantly diverges from the validation loss achieved by full fine-tuning. To address this, we propose Weight-Decomposed Tensor Adaptation (DoTA), which leverages the Matrix Product Operator (MPO) decomposition of pre-trained weights for effective initialization in fine-tuning LLMs. Additionally, we introduce QDoTA, a quantized version of DoTA designed for 4-bit quantization. Experiments on commonsense and arithmetic reasoning tasks show that DoTA outperforms random initialization methods with fewer parameters. QDoTA further reduces memory consumption and achieves comparable performance to DoTA on commonsense reasoning tasks. We will release our code to support future research.
Abstract（参考訳）: 低ランク適応(LoRA)は、低ランク行列による更新を近似することにより、微調整された大言語モデル(LLM)の計算とメモリ要求を減らす。しかし、2次元空間における低ランク近似は、ターゲット行列内の高次元構造を捉えることに失敗する。近年,構造化情報抽出能力を活用した微調整LDMのためのテンソル分解法が検討されている。しかし、これらのアプローチは主にランダム初期化に依存しており、テンソル適応に対する初期化の影響は未解明のままである。本稿では,完全微調整による検証損失からランダム初期化が著しく分散していることを明らかにする。そこで本研究では, 行列積演算子 (MPO) 分解を利用した重み分解テンソル適応 (DoTA) を提案する。さらに、4ビット量子化用に設計されたDoTAの量子化バージョンであるQDoTAを紹介する。コモンセンスおよび算術的推論タスクの実験は、DoTAがパラメータが少ないランダム初期化法より優れていることを示している。 QDoTAはさらにメモリ消費を減らし、コモンセンス推論タスクでDoTAに匹敵するパフォーマンスを達成する。今後の研究を支援するためにコードを公開します。

関連論文リスト

ConsNoTrainLoRA: Data-driven Weight Initialization of Low-rank Adapters using Constraints [64.35580479051208]
以前の作品では、ローランクアダプタ (LoRA) はすべてのアタッチメントポイントに対してランダムに固定されたランクである。本稿では,データ駆動重み初期化法を用いて,LoRAファインチューニングの収束性と最終性能を改善する。
論文参考訳（メタデータ） (2025-07-09T23:52:31Z)
It Takes a Good Model to Train a Good Model: Generalized Gaussian Priors for Optimized LLMs [15.263422862969803]
大規模言語モデルのトレーニング時間圧縮アルゴリズムであるBackSlashを導入する。 GGモデルに基づくLLM最適化のための統一エンドツーエンドフレームワークを提案する。私たちの貢献は3倍です。 DeepShapeは、トレーニング後の正規化手法で、体重分布をGGプロファイルにマッチさせる。 RF8は、GG-distributed-priord BackSlashトレーニング用に設計された、コンパクトでハードウェア効率の良い8ビット浮動小数点演算フォーマットである。
論文参考訳（メタデータ） (2025-05-31T09:49:17Z)
LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。 RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文参考訳（メタデータ） (2025-02-13T06:44:33Z)
Training Deep Learning Models with Norm-Constrained LMOs [56.00317694850397]
正規球上の線形最小化オラクル(LMO)を利用する最適化手法について検討する。この問題の幾何学に適応するためにLMOを用いた新しいアルゴリズム群を提案し, 意外なことに, 制約のない問題に適用可能であることを示す。
論文参考訳（メタデータ） (2025-02-11T13:10:34Z)
Sparser Training for On-Device Recommendation Systems [50.74019319100728]
動的スパーストレーニング(DST)に基づく軽量埋め込み手法であるスパースRecを提案する。これは、重要なベクトルの部分集合をサンプリングすることによって、バックプロパゲーション中の密度勾配を避ける。
論文参考訳（メタデータ） (2024-11-19T03:48:48Z)
Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。 Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文参考訳（メタデータ） (2024-10-11T17:01:43Z)
One Initialization to Rule them All: Fine-tuning via Explained Variance Adaptation [13.585425242072173]
最も一般的に使われている微調整法は、ローランク適応(LoRA)を介してトレーニング済みの重量を更新することである。活性化のミニバッチ上での特異値分解(SVD)を計算し,データ駆動方式で新たな重み付けを初期化することによりLoRAを改善することを提案する。新しいメソッドを $textbfE$xplained $textbfV$ariance $textbfA$daptation (EVA) と呼びます。
論文参考訳（メタデータ） (2024-10-09T17:59:06Z)
LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、PEFT (Efficient Fine Tuning) 法として人気がある。よりコンパクトで柔軟な表現を可能にする高階Candecomp/Parafac(CP)分解を提案する。本手法は,比較性能を維持しつつパラメータ数を削減できる。
論文参考訳（メタデータ） (2024-10-05T06:59:50Z)
TRAWL: Tensor Reduced and Approximated Weights for Large Language Models [11.064868044313855]
TRAWL (Tensor Reduced and Approximated Weights for Large Language Models) は、複数の重み行列に対してテンソル分解を適用し、大域的な構造パターンを捉えることでLLMを効果的に分解する手法である。我々の実験によると、TRAWLは、追加のデータやトレーニング、微調整を必要とせず、ベンチマークデータセットのベースラインモデルよりも最大16%モデル性能を向上させる。
論文参考訳（メタデータ） (2024-06-25T04:01:32Z)
Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。 A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文参考訳（メタデータ） (2024-06-15T09:31:03Z)
VeLoRA: Memory Efficient Training using Rank-1 Sub-Token Projections [35.133698935322634]
大規模言語モデル(LLM)は、最近、多くの言語処理タスクに対処するための強力なツールとして登場した。勾配勾配勾配を用いた効率的なモデル収束に必要な重要な成分を同定し,特徴付ける。この結果から, 微調整と事前学習の両方のための, 安価かつメモリ効率のよいアルゴリズムが得られた。
論文参考訳（メタデータ） (2024-05-28T09:23:14Z)
Characterizing the Accuracy -- Efficiency Trade-off of Low-rank Decomposition in Language Models [1.401463252785724]
低ランクの分解は、大規模にリアルタイムサービスを必要とするLLMベースのアプリケーションにとって有望な方向である。低ランクな分解設計空間を形式化し、分解設計空間が巨大であることを示す。以上の結果から,最小精度で9%のモデルサイズ削減を達成できることが示唆された。
論文参考訳（メタデータ） (2024-05-10T17:40:02Z)
Data-freeWeight Compress and Denoise for Large Language Models [101.53420111286952]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文参考訳（メタデータ） (2024-02-26T05:51:47Z)
LQ-LoRA: Low-rank Plus Quantized Matrix Decomposition for Efficient Language Model Finetuning [66.85589263870702]
提案手法では,事前学習した行列を高精度の低ランク成分とメモリ効率の量子化成分に分解するために反復アルゴリズムを用いる。微調整されたRoBERTaとLLaMA-2の実験は、我々の低ランク+量子化行列分解法(LQ-LoRA)が強いQLoRAおよびGPTQ-LoRAベースラインより優れていることを示した。
論文参考訳（メタデータ） (2023-11-20T18:57:41Z)
Maestro: Uncovering Low-Rank Structures via Trainable Decomposition [15.254107731735553]
近年、ディープニューラルネットワーク(DNN)はAIのブレークスルーの大きな要因となっている。より正確で安全になるにつれて、ますます大きなものになってきています。つまり、トレーニングはますますコストと時間がかかります。トレーニング可能な低ランク層のためのフレームワークであるMaestroを提案する。
論文参考訳（メタデータ） (2023-08-28T23:08:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。