論文の概要: Matrix-Transformation Based Low-Rank Adaptation (MTLoRA): A
Brain-Inspired Method for Parameter-Efficient Fine-Tuning
- arxiv url: http://arxiv.org/abs/2403.07440v1
- Date: Tue, 12 Mar 2024 09:32:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 22:26:25.447759
- Title: Matrix-Transformation Based Low-Rank Adaptation (MTLoRA): A
Brain-Inspired Method for Parameter-Efficient Fine-Tuning
- Title(参考訳): 行列変換に基づく低ランク適応(MTLoRA):パラメータ効率な微調整のための脳誘発手法
- Authors: Yao Liang, Yuwei Wang, Yi Zeng
- Abstract要約: マトリックス変換に基づく低ランク適応(MTLoRA)は、脳の機能はその幾何学的構造によって形成されるという考えから着想を得ている。
MTLoRAは8つのタスクでパフォーマンスが約1.0%向上する。
- 参考スコア(独自算出の注目度): 10.935629246145233
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning techniques based on Large Pretrained Language Models (LPLMs) have
been proven to significantly enhance model performance on a variety of
downstream tasks and effectively control the output behaviors of LPLMs. Recent
studies have proposed numerous methods for fine-tuning a small number of
parameters based on open-source LPLMs, reducing the demand for computational
and storage resources. Among these, reparameterization fine-tuning methods
represented by LoRA (Low-Rank Adaptation) have gained popularity. We find that
although these methods perform well in many aspects, there is still
considerable room for improvement in terms of complex task adaptability,
performance, stability, and algorithm complexity. In response to this, inspired
by the idea that the functions of the brain are shaped by its geometric
structure, this paper integrates this idea into LoRA technology and proposes a
new matrix transformation-based reparameterization method for efficient
fine-tuning, named Matrix-Transformation based Low-Rank Adaptation (MTLoRA).
MTLoRA aims to dynamically alter its spatial geometric structure by applying a
transformation-matrix T to perform linear transformations, such as rotation,
scaling, and translation, on the task-specific parameter matrix, generating new
matrix feature patterns (eigenvectors) to mimic the fundamental influence of
complex geometric structure feature patterns in the brain on functions, thereby
enhancing the model's performance in downstream tasks. In Natural Language
Understanding (NLU) tasks, it is evaluated using the GLUE benchmark test, and
the results reveal that MTLoRA achieves an overall performance increase of
about 1.0% across eight tasks; in Natural Language Generation (NLG) tasks,
MTLoRA improves performance by an average of 0.95% and 0.31% in the DART and
WebNLG tasks, respectively.
- Abstract(参考訳): LPLM(Large Pretrained Language Models)に基づく微調整技術は、様々な下流タスクにおけるモデル性能を著しく向上し、LPLMの出力挙動を効果的に制御できることが証明されている。
近年、オープンソースのlplmに基づいて少数のパラメータを微調整する方法が提案され、計算資源やストレージリソースの需要が減少している。
このうち、LoRA(Low-Rank Adaptation)で表される再パラメータ化細調整法が人気を博している。
これらの手法は多くの点でうまく機能するが、複雑なタスク適応性、性能、安定性、アルゴリズムの複雑さといった点で改善の余地がある。
これに対し、脳の機能は幾何学的構造によって形成されるという考えに触発されて、このアイデアをLoRA技術に統合し、マトリックス変換に基づく効率的な微調整のための新しい行列変換に基づくパラメータ化手法であるMTLoRAを提案する。
MTLoRAは、変換行列Tを用いて、タスク固有のパラメータ行列上に回転、スケーリング、翻訳などの線形変換を行い、新しい行列特徴パターン(固有ベクトル)を生成し、脳内の複雑な幾何学的構造の特徴パターンが機能に与える影響を模倣し、下流タスクにおけるモデルの性能を向上させることを目的としている。
自然言語理解(NLU)タスクでは,GLUEベンチマークテストを用いて評価を行い,その結果から,MTLoRAは8タスクで約1.0%,自然言語生成(NLG)タスクでは平均0.95%,WebNLGタスクでは0.31%向上した。
関連論文リスト
- LoRA-Mini : Adaptation Matrices Decomposition and Selective Training [2.0670689746336]
Low-Rank Adaptation (LoRA)は、トレーニング可能なパラメータの数を減らし、パラメータ効率の良い微調整を可能にする、有望なソリューションとして登場した。
低ランク行列を4つに分割することでパラメータ効率を向上させるLoRAを最適化したLoRA-Miniを提案する。
このアプローチは、標準のLoRAに匹敵するパフォーマンスレベルを維持しながら、トレーニング可能なパラメータの数に対して、標準のLoRAと比較して最大20倍の削減を実現している。
論文 参考訳(メタデータ) (2024-11-24T12:21:14Z) - Efficient Adaptation of Pre-trained Vision Transformer via Householder Transformation [53.88562288388169]
一般的な戦略である。
事前訓練された視覚変換器(ViT)のPEFT(Efficient Fine-Tuning)は、下流タスクにモデルを適応させる。
適応行列を表現するために,Singular Value Decomposition (SVD) にインスパイアされた新しいPEFT手法を提案する。
SVDは行列を左ユニタリ行列、スケーリング値の対角行列、右ユニタリ行列の積に分解する。
論文 参考訳(メタデータ) (2024-10-30T12:08:30Z) - LoRA Done RITE: Robust Invariant Transformation Equilibration for LoRA Optimization [78.93425154518705]
低ランク適応 (LoRA) は、メモリ要求を低減し、LLMのパラメータ効率の高い微調整法である。
本稿では,LoRA最適化のための適応行列プレコンディショニング手法であるLoRA-RITEを紹介する。
論文 参考訳(メタデータ) (2024-10-27T22:57:12Z) - Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs [75.11449420928139]
微調整型大規模言語モデル(LLM)は、訓練済みモデルを下流タスクに適応させる上で重要な技術となっている。
Low-Rank Adaptation (LoRA) は有望な解決法として登場したが、低ランク適応の実用性能と理論的最適性の間にはギャップがある。
本稿では,このギャップを埋める新しいフレームワークであるeXtreme Gradient Boosting LoRAを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:07:13Z) - Enhancing Zeroth-order Fine-tuning for Language Models with Low-rank Structures [21.18741772731095]
ゼロ階数(ZO)アルゴリズムは、関数値の有限差を用いて勾配を近似することで、有望な代替手段を提供する。
既存のZO法は、LLM微調整で一般的な低ランク勾配構造を捉えるのに苦労し、準最適性能をもたらす。
本稿では,LLMにおけるこの構造を効果的に捕捉する低ランクZOアルゴリズム(LOZO)を提案する。
論文 参考訳(メタデータ) (2024-10-10T08:10:53Z) - LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、下流タスクのための大規模な事前学習モデルに効果的に適応する、PEFT (Efficient Fine Tuning) 手法として人気がある。
モデル更新に低階テンソルパラメトリゼーションを用いる新しい手法を提案する。
提案手法は,大規模言語モデルの微調整に有効であり,比較性能を維持しつつ,パラメータ数の大幅な削減を実現している。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z) - Enhancing Parameter Efficiency and Generalization in Large-Scale Models: A Regularized and Masked Low-Rank Adaptation Approach [10.980433187379868]
低ランク適応(LoRA)は、良好な微調整結果を維持しつつ、資源消費を減らすために開発された。
本稿では,LoRA法により近似された行列更新の本質的な次元について検討し,本質的な次元を増大させることによる性能上の利点を明らかにする。
論文 参考訳(メタデータ) (2024-07-16T15:26:31Z) - Compressible Dynamics in Deep Overparameterized Low-Rank Learning & Adaptation [12.07880147193174]
モデルパラメータ内のデータと圧縮可能な力学の固有な低次元構造を利用することで、計算負担を伴わずにパラメータ化の利点を享受できることが示される。
提案手法は,低ランク行列と微調整言語モデルに対して有効であることを示す。
論文 参考訳(メタデータ) (2024-06-06T14:29:49Z) - MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning [105.11844150736536]
低ランク適応は、大規模言語モデルのためのパラメータ効率の良い微調整法として人気がある。
トレーニング可能なパラメータ数を同じ数に保ちながら、高階更新を実現するために2乗行列を用いるMoRAと呼ばれる新しい手法を提案する。
本手法はメモリ集約型タスクではLoRAより優れ,他のタスクでは同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-20T15:48:32Z) - Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。
従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。
本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T14:08:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。