Fugu-MT 論文翻訳(概要): Compacter: Efficient Low-Rank Hypercomplex Adapter Layers

論文の概要: Compacter: Efficient Low-Rank Hypercomplex Adapter Layers

arxiv url: http://arxiv.org/abs/2106.04647v1
Date: Tue, 8 Jun 2021 19:17:04 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-10 15:14:32.405019
Title: Compacter: Efficient Low-Rank Hypercomplex Adapter Layers
Title（参考訳）: compacter: 効率のよい低ランクハイパーコンプレックスアダプタ層
Authors: Rabeeh Karimi Mahabadi, James Henderson, Sebastian Ruder
Abstract要約: 大規模事前訓練された言語モデルを微調整により下流タスクに適用することは、NLPベンチマークで最先端のパフォーマンスを達成するための標準的な方法である。最近の研究ではパラメータ効率のよい微調整法が開発されているが、これらの手法は依然として比較的多くのパラメータを必要とするか、性能の低い標準微調整を必要とする。本研究では,タスク性能とトレーニング可能なパラメータ数とのトレードオフを改良した,大規模言語モデルの微調整手法であるCompacterを提案する。
参考スコア（独自算出の注目度）: 37.15691848006744
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Adapting large-scale pretrained language models to downstream tasks via fine-tuning is the standard method for achieving state-of-the-art performance on NLP benchmarks. However, fine-tuning all weights of models with millions or billions of parameters is sample-inefficient, unstable in low-resource settings, and wasteful as it requires storing a separate copy of the model for each task. Recent work has developed parameter-efficient fine-tuning methods, but these approaches either still require a relatively large number of parameters or underperform standard fine-tuning. In this work, we propose Compacter, a method for fine-tuning large-scale language models with a better trade-off between task performance and the number of trainable parameters than prior work. Compacter accomplishes this by building on top of ideas from adapters, low-rank optimization, and parameterized hypercomplex multiplication layers. Specifically, Compacter inserts task-specific weight matrices into a pretrained model's weights, which are computed efficiently as a sum of Kronecker products between shared ``slow'' weights and ``fast'' rank-one matrices defined per Compacter layer. By only training 0.047% of a pretrained model's parameters, Compacter performs on par with standard fine-tuning on GLUE and outperforms fine-tuning in low-resource settings. Our code is publicly available in https://github.com/rabeehk/compacter/
Abstract（参考訳）: 微調整によるダウンストリームタスクへの大規模事前学習言語モデルの適用は、nlpベンチマークで最先端のパフォーマンスを達成するための標準的な方法である。しかし、数百万から数十億のパラメータでモデルのすべての重みを微調整することは、サンプル非効率であり、低リソース設定では不安定であり、各タスクにモデルの別々のコピーを保存する必要があるため無駄である。近年の研究ではパラメータ効率のよい微調整法が開発されているが、これらの手法は比較的多くのパラメータを必要とするか、標準の微調整が不十分である。本研究では,従来よりもタスク性能と学習可能なパラメータ数とのトレードオフが良好である大規模言語モデルの微調整手法である compacter を提案する。 compacterはアダプタ、低ランク最適化、パラメータ化ハイパーコンプレックス乗算層のアイデアの上に構築することでこれを実現している。特に、Compacterはタスク固有の重み行列を事前訓練されたモデルの重みに挿入し、Kroneckerの積を共有の ``slow'' 重みと共有の ``fast'' ランク1の行列の和として効率的に計算する。事前トレーニングされたモデルのパラメータの 0.047% をトレーニングするだけで、compacter は標準のglue の微調整と同等の性能を発揮し、低リソース設定での微調整よりも優れている。私たちのコードはhttps://github.com/rabeehk/compacter/で公開されています。

関連論文リスト

Hyper Compressed Fine-Tuning of Large Foundation Models with Quantum Inspired Adapters [0.0]
emphQuantum-Inspired Adaptersは、量子機械学習文学のハミング級量子回路にインスパイアされたPEFTアプローチである。提案するアダプタは,ベンチマークデータセットに大規模言語モデルと大規模視覚変換器を適用して検証する。
論文参考訳（メタデータ） (2025-02-10T13:06:56Z)
FineGates: LLMs Finetuning with Compression using Stochastic Gates [7.093692674858257]
大規模言語モデル(LLM)は、高い計算要求のため、完全な微調整に重大な課題をもたらす。低ランクのアダプタ層を学習するなど、軽量なファインタニング技術が提案されている。本稿では,フリーズベースモデルとタスク固有適応を同時に分散するゲートに基づくアダプタモデルを提案する。
論文参考訳（メタデータ） (2024-12-17T14:33:05Z)
Expanding Sparse Tuning for Low Memory Usage [103.43560327427647]
メモリ使用量が少ないスパースチューニングのためのSNELL(Sparse tuning with kerNelized LoRA)法を提案する。低メモリ使用量を達成するため、SNELLはスカラー化のための調整可能な行列を2つの学習可能な低ランク行列に分解する。コンペティションに基づくスペーシフィケーション機構は、チューナブルウェイトインデックスの保存を避けるためにさらに提案される。
論文参考訳（メタデータ） (2024-11-04T04:58:20Z)
LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、下流タスクのための大規模な事前学習モデルに効果的に適応する、PEFT (Efficient Fine Tuning) 手法として人気がある。モデル更新に低階テンソルパラメトリゼーションを用いる新しい手法を提案する。提案手法は,大規模言語モデルの微調整に有効であり,比較性能を維持しつつ,パラメータ数の大幅な削減を実現している。
論文参考訳（メタデータ） (2024-10-05T06:59:50Z)
SARA: Singular-Value Based Adaptive Low-Rank Adaption [4.135688713311511]
パラメータ効率のよい微細チューニング(PEFT)手法としてのLoRAは、推論オーバーヘッドを加算しないために広く用いられている。本研究ではまず,各層の性能とランクの関係をSVDを用いて解析する。これに基づいてSARA(Singular-Value Based Adaptive Low-Rank Adaption)を設計する。
論文参考訳（メタデータ） (2024-08-06T16:39:42Z)
Structured Unrestricted-Rank Matrices for Parameter Efficient Fine-tuning [38.80020737321214]
構造化非制限ランク行列(SURM)に基づく効率的なパラメータ微調整(PEFT)のためのフレームワークを提案する。 SURMは、LoRAの低ランク行列を置換しながら、様々な画像分類タスクにおいて5-7%の精度向上を実現している。また、GLUEベンチマークでは、アダプタのパラメータ数を最大12倍に削減する(ほぼ品質が低下する)。
論文参考訳（メタデータ） (2024-06-25T17:26:05Z)
Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。 6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文参考訳（メタデータ） (2023-05-15T06:40:56Z)
AdaMix: Mixture-of-Adapter for Parameter-efficient Tuning of Large Language Models [119.7093605087114]
大規模なトレーニング済み言語モデルをダウンストリームタスクに微調整するには、数億のパラメータを更新する必要がある。これにより、各タスクのモデルの重みの大量コピーを格納するためのサービスコストが増大するだけでなく、数発のタスク適応中に不安定を示す。パラメータや計算コストを2つの重要な手法で増大させることなく、アダプタ容量を改善するための新しいメカニズムを導入する。
論文参考訳（メタデータ） (2022-05-24T23:41:22Z)
Parameter-Efficient Sparsity for Large Language Models Fine-Tuning [63.321205487234074]
私たちはaを提案します。 Sparse- efficient Sparse Training (PST) は、スパース・アウェア・トレーニング中にトレーニング可能なパラメータの数を減少させる手法である。多様なネットワーク(BERT、RoBERTa、GPT-2)を用いた実験では、PSTは従来のスパーシリティ法よりも同等以上の性能を示した。
論文参考訳（メタデータ） (2022-05-23T02:43:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。