Fugu-MT 論文翻訳(概要): RoseLoRA: Row and Column-wise Sparse Low-rank Adaptation of Pre-trained Language Model for Knowledge Editing and Fine-tuning

論文の概要: RoseLoRA: Row and Column-wise Sparse Low-rank Adaptation of Pre-trained Language Model for Knowledge Editing and Fine-tuning

arxiv url: http://arxiv.org/abs/2406.10777v1
Date: Sun, 16 Jun 2024 02:08:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-18 20:51:13.790882
Title: RoseLoRA: Row and Column-wise Sparse Low-rank Adaptation of Pre-trained Language Model for Knowledge Editing and Fine-tuning
Title（参考訳）: RoseLoRA:知識編集と微調整のための事前学習言語モデルの低ランク適応
Authors: Haoyu Wang, Tianci Liu, Tuo Zhao, Jing Gao,
Abstract要約: 事前学習された言語モデルは、様々なNLPタスクにまたがる強力な一般化性を示す。特定のタスクのためにこれらのモデルを微調整するには、通常、リソース集約的な全てのパラメータを更新する必要がある。我々は,textbfrowとctextbfolumn-wise spartextbfse textbflow-textbfrank textbfadaptation (RoseLoRA)を実行する新しいPEFT法を提案する。 RoseLoRAは、特定のタスクの最も重要なパラメータのみを特定し、更新し、効率を維持する
参考スコア（独自算出の注目度）: 38.874718417145935
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pre-trained language models, trained on large-scale corpora, demonstrate strong generalizability across various NLP tasks. Fine-tuning these models for specific tasks typically involves updating all parameters, which is resource-intensive. Parameter-efficient fine-tuning (PEFT) methods, such as the popular LoRA family, introduce low-rank matrices to learn only a few parameters efficiently. However, during inference, the product of these matrices updates all pre-trained parameters, complicating tasks like knowledge editing that require selective updates. We propose a novel PEFT method, which conducts \textbf{r}ow and c\textbf{o}lumn-wise spar\textbf{se} \textbf{lo}w-\textbf{r}ank \textbf{a}daptation (RoseLoRA), to address this challenge. RoseLoRA identifies and updates only the most important parameters for a specific task, maintaining efficiency while preserving other model knowledge. By adding a sparsity constraint on the product of low-rank matrices and converting it to row and column-wise sparsity, we ensure efficient and precise model updates. Our theoretical analysis guarantees the lower bound of the sparsity with respective to the matrix product. Extensive experiments on five benchmarks across twenty datasets demonstrate that RoseLoRA outperforms baselines in both general fine-tuning and knowledge editing tasks.
Abstract（参考訳）: 大規模コーパスで訓練された事前学習言語モデルは、様々なNLPタスクに対して強力な一般化性を示す。特定のタスクのためにこれらのモデルを微調整するには、通常、リソース集約的な全てのパラメータを更新する必要がある。パラメータ効率のよい微調整法(PEFT)では、LoRAファミリのような低ランク行列を導入し、いくつかのパラメータを効率的に学習する。しかし、推論の間、これらの行列の製品は、事前訓練されたパラメータをすべて更新し、選択的な更新を必要とする知識編集のようなタスクを複雑にする。本稿では,この課題に対処するため,新しいPEFT法を提案する。 RoseLoRAは、特定のタスクにおいて最も重要なパラメータのみを特定し、更新し、他のモデルの知識を維持しながら効率を維持する。低ランク行列の積にスパーシリティ制約を加え、行や列の幅に変換することで、効率的かつ正確なモデル更新を確実にする。我々の理論的解析は、行列積のそれぞれに対する空間境界の低いことを保証している。 20のデータセットにまたがる5つのベンチマークの大規模な実験により、RoseLoRAは一般的な微調整タスクと知識編集タスクの両方においてベースラインを上回っていることが示された。

関連論文リスト

Gradient-based Fine-Tuning through Pre-trained Model Regularization [20.823624386591902]
重み行列の行や列を更新する効率的な勾配ベースおよび正規化微調整法(GRFT)を提案する。 GRFTは最先端のパフォーマンスを実現し、GPS、Adapter Tuning、LoRAといった既存の手法を超越している。
論文参考訳（メタデータ） (2025-06-14T14:41:03Z)
Reinforcement Learning Finetunes Small Subnetworks in Large Language Models [27.55599230411277]
強化学習(Reinforcement Learning, RL)は、大規模な言語モデルにおいて、タスクのパフォーマンスと人間の価値との整合性を大幅に向上させる。驚くべきことに、このような大きな利益は、パラメータの5%から30%の小さなサブネットワークだけを更新することによるものです。本稿では,この現象をRLにより引き起こされるパラメータ更新時空間性と呼ぶ。
論文参考訳（メタデータ） (2025-05-16T21:42:28Z)
Generalized Tensor-based Parameter-Efficient Fine-Tuning via Lie Group Transformations [50.010924231754856]
さまざまな下流タスクに事前訓練された基礎モデルを適用することは、人工知能のコアプラクティスである。これを解決するために、LoRAのようなパラメータ効率細調整(PEFT)手法が登場し、研究の焦点となっている。本稿では,行列型PEFT法を高次元パラメータ空間に拡張する一般化法を提案する。
論文参考訳（メタデータ） (2025-04-01T14:36:45Z)
ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文参考訳（メタデータ） (2024-12-11T12:31:30Z)
LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、PEFT (Efficient Fine Tuning) 法として人気がある。よりコンパクトで柔軟な表現を可能にする高階Candecomp/Parafac(CP)分解を提案する。本手法は,比較性能を維持しつつパラメータ数を削減できる。
論文参考訳（メタデータ） (2024-10-05T06:59:50Z)
NEAT: Nonlinear Parameter-efficient Adaptation of Pre-trained Models [26.808251361020066]
微調整された事前訓練されたモデルは、リソース集約的で厳しい。広く採用されているPEFT技術であるLoRA(Lo-Rank Adaptation)は、事前訓練されたモデルの重量を凍結する。 NEATは、トレーニング済みの重みを入力として取り込んだ軽量ニューラルネットワークを導入し、近似累積重み更新のための非線形変換を学習する。
論文参考訳（メタデータ） (2024-10-02T17:29:23Z)
SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-Rank Adaptation [52.6922833948127]
本研究では,事前学習した拡散モデルにおけるパラメータの重要性について検討する。本稿では,これらの非効率パラメータをフル活用するための新しいモデル微調整法を提案する。本手法は,下流アプリケーションにおける事前学習モデルの生成能力を向上する。
論文参考訳（メタデータ） (2024-09-10T16:44:47Z)
SBoRA: Low-Rank Adaptation with Regional Weight Updates [19.15481369459963]
本稿では,SBORA(Standard Basis LoRA)を提案する。 SBoRAはトレーニング可能なパラメータの数を半分に減らし、LoRAと同様のトレーニング可能なパラメータの数でランクを2倍にする。本研究は,LoraよりもSBoRA-FAの方が,常識推論や算術推論など,様々な微調整タスクにおいて優れていることを示す。
論文参考訳（メタデータ） (2024-07-07T15:37:13Z)
MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning [105.11844150736536]
低ランク適応は、大規模言語モデルのためのパラメータ効率の良い微調整法として人気がある。トレーニング可能なパラメータ数を同じ数に保ちながら、高階更新を実現するために2乗行列を用いるMoRAと呼ばれる新しい手法を提案する。本手法はメモリ集約型タスクではLoRAより優れ,他のタスクでは同等のパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-05-20T15:48:32Z)
PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。 8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文参考訳（メタデータ） (2024-01-20T20:25:17Z)
Chain of LoRA: Efficient Fine-tuning of Language Models via Residual Learning [31.036465632204663]
本稿では,Frank-Wolfeアルゴリズムにインスパイアされた反復最適化フレームワークであるLoRAのChainを紹介する。計算コストやメモリコストを増大させることなく,COLA が LoRA を一貫して上回ることを示す。
論文参考訳（メタデータ） (2024-01-08T14:26:49Z)
AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning [143.23123791557245]
下流タスクで訓練済みの大規模言語モデルを微調整することは、NLPにおいて重要なパラダイムとなっている。重み行列のパラメータ予算をその重要度に応じて適応的に割り当てるAdaLoRAを提案する。我々は,AdaLoRAの有効性を検証するために,自然言語処理,質問応答,自然言語生成に関する事前学習モデルを用いた広範囲な実験を行った。
論文参考訳（メタデータ） (2023-03-18T22:36:25Z)
Parameter-Efficient Sparsity for Large Language Models Fine-Tuning [63.321205487234074]
私たちはaを提案します。 Sparse- efficient Sparse Training (PST) は、スパース・アウェア・トレーニング中にトレーニング可能なパラメータの数を減少させる手法である。多様なネットワーク(BERT、RoBERTa、GPT-2)を用いた実験では、PSTは従来のスパーシリティ法よりも同等以上の性能を示した。
論文参考訳（メタデータ） (2022-05-23T02:43:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。