論文の概要: Tensor Train Low-rank Approximation (TT-LoRA): Democratizing AI with Accelerated LLMs
- arxiv url: http://arxiv.org/abs/2408.01008v1
- Date: Fri, 2 Aug 2024 04:45:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-05 14:26:49.234190
- Title: Tensor Train Low-rank Approximation (TT-LoRA): Democratizing AI with Accelerated LLMs
- Title(参考訳): テンソルトレイン低ランク近似(TT-LoRA):加速LDMによるAIの民主化
- Authors: Afia Anjum, Maksim E. Eren, Ismael Boureima, Boian Alexandrov, Manish Bhattarai,
- Abstract要約: 大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクで顕著な機能を示している。
しかし、LLMの複雑さはますます増大し、膨大な計算資源を必要としている。
本稿では,新しいパラメータ効率細調整(PEFT)手法であるTrain Low-Rank Approximation (TT-LoRA)を紹介する。
- 参考スコア(独自算出の注目度): 1.5503410315996757
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, Large Language Models (LLMs) have demonstrated remarkable capabilities across a wide range of natural language processing (NLP) tasks, such as question-answering, sentiment analysis, text summarization, and machine translation. However, the ever-growing complexity of LLMs demands immense computational resources, hindering the broader research and application of these models. To address this, various parameter-efficient fine-tuning strategies, such as Low-Rank Approximation (LoRA) and Adapters, have been developed. Despite their potential, these methods often face limitations in compressibility. Specifically, LoRA struggles to scale effectively with the increasing number of trainable parameters in modern large scale LLMs. Additionally, Low-Rank Economic Tensor-Train Adaptation (LoRETTA), which utilizes tensor train decomposition, has not yet achieved the level of compression necessary for fine-tuning very large scale models with limited resources. This paper introduces Tensor Train Low-Rank Approximation (TT-LoRA), a novel parameter-efficient fine-tuning (PEFT) approach that extends LoRETTA with optimized tensor train (TT) decomposition integration. By eliminating Adapters and traditional LoRA-based structures, TT-LoRA achieves greater model compression without compromising downstream task performance, along with reduced inference latency and computational overhead. We conduct an exhaustive parameter search to establish benchmarks that highlight the trade-off between model compression and performance. Our results demonstrate significant compression of LLMs while maintaining comparable performance to larger models, facilitating their deployment on resource-constraint platforms.
- Abstract(参考訳): 近年、Large Language Models (LLM) は、質問応答、感情分析、テキスト要約、機械翻訳など、幅広い自然言語処理(NLP)タスクにおいて顕著な機能を示している。
しかし、LLMの複雑さはますます増大し、膨大な計算資源を必要とし、これらのモデルの研究と応用を妨げている。
これを解決するために,ローランド近似 (LoRA) やアダプタ (Adapters) などのパラメータ効率のよい微調整戦略が開発されている。
その可能性にもかかわらず、これらの方法は圧縮性の限界に直面していることが多い。
特に、LoRAは、現代の大規模LLMにおいて、トレーニング可能なパラメータの数の増加とともに、効果的にスケールするのに苦労している。
さらに、テンソル列車分解を利用したローランド経済テンソル・トレイン適応(LoRETTA)は、限られた資源を持つ大規模モデルの微調整に必要な圧縮レベルをまだ達成していない。
本稿では,TT 分解積分を最適化して LoRETTA を拡張する新しいパラメータ効率細調整 (PEFT) 手法である Tensor Train Low-Rank Approximation (TT-LoRA) を提案する。
アダプタと従来のLoRA構造を排除することにより、TT-LoRAは、ダウンストリームタスク性能を損なうことなく、より優れたモデル圧縮を実現し、推論遅延と計算オーバーヘッドを低減させる。
我々は、モデル圧縮と性能のトレードオフを強調するベンチマークを確立するために、徹底的なパラメータ探索を行う。
以上の結果から,LLMは大規模モデルに匹敵する性能を維持しつつ,資源制約型プラットフォームへの展開を容易化しつつ,大幅な圧縮を図っている。
関連論文リスト
- Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs [75.11449420928139]
微調整型大規模言語モデル(LLM)は、訓練済みモデルを下流タスクに適応させる上で重要な技術となっている。
Low-Rank Adaptation (LoRA) は有望な解決法として登場したが、低ランク適応の実用性能と理論的最適性の間にはギャップがある。
本稿では,このギャップを埋める新しいフレームワークであるeXtreme Gradient Boosting LoRAを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:07:13Z) - LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、下流タスクのための大規模な事前学習モデルに効果的に適応する、PEFT (Efficient Fine Tuning) 手法として人気がある。
モデル更新に低階テンソルパラメトリゼーションを用いる新しい手法を提案する。
提案手法は,大規模言語モデルの微調整に有効であり,比較性能を維持しつつ,パラメータ数の大幅な削減を実現している。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - OLoRA: Orthonormal Low-Rank Adaptation of Large Language Models [0.0]
Low-Rank Adaptation (LoRA)はこれらの問題を緩和するための有望な方法として登場した。
OLoRAはLLMトレーニングの収束を著しく加速する。
OLoRAは、様々な言語モデリングタスクで標準のLoRAよりもパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-06-03T20:37:27Z) - Feature-based Low-Rank Compression of Large Language Models via Bayesian Optimization [40.15915011575071]
低ランク圧縮は、大規模言語モデルにおける非必須パラメータを減らすための有望な手法である。
大型モデルの低ランク特性に関する実証的研究を行う。
大規模言語モデルに適した低ランク圧縮手法を提案する。
論文 参考訳(メタデータ) (2024-05-17T08:27:12Z) - LoRETTA: Low-Rank Economic Tensor-Train Adaptation for
Ultra-Low-Parameter Fine-Tuning of Large Language Models [20.5908375260123]
モデル性能を維持しながら計算効率のよい微調整を実現するために,様々なパラメータ効率の微調整技術が提案されている。
テンソル-トレイン分解によりトレーニング可能なパラメータを大幅に削減するフレームワークであるLoRETTAを提案する。
LoRETTAは、LLaMA-2-7Bモデルで最大100倍のパラメータで、最も広く使われているPEFT法よりも同等または優れた性能を実現している。
論文 参考訳(メタデータ) (2024-02-18T01:20:00Z) - PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。
8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文 参考訳(メタデータ) (2024-01-20T20:25:17Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - LoRA: Low-Rank Adaptation of Large Language Models [71.75808607987281]
Low-Rank Adaptation (LoRA)はトレーニング済みモデルの重みを凍結し、トレーニング可能な階数分解をTransformerアーキテクチャの各層に注入する。
GPT-3では、LoRAはトレーニング可能なパラメータの数を1万倍に減らし、計算ハードウェアの要求をフル微調整の3倍に削減できる。
論文 参考訳(メタデータ) (2021-06-17T17:37:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。