Fugu-MT 論文翻訳(概要): RoSA: Accurate Parameter-Efficient Fine-Tuning via Robust Adaptation

論文の概要: RoSA: Accurate Parameter-Efficient Fine-Tuning via Robust Adaptation

arxiv url: http://arxiv.org/abs/2401.04679v4
Date: Fri, 12 Jan 2024 07:35:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-15 12:12:38.568870
Title: RoSA: Accurate Parameter-Efficient Fine-Tuning via Robust Adaptation
Title（参考訳）: RoSA:ロバスト適応による高精度パラメータ効率ファインチューニング
Authors: Mahdi Nikdan, Soroush Tabesh, Dan Alistarh
Abstract要約: ロバスト適応(RoSA)と呼ばれる新しいPEFT法を提案する。 RoSAは、固定された事前トレーニングされた重みのセットの上に、$textitlow-rank$と$textit-sparse$コンポーネントをトレーニングする。また,RoSA は LoRA と純スパースファインチューニングの両方を同じパラメータ予算で上回っていることを示す。
参考スコア（独自算出の注目度）: 37.81245286454395
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We investigate parameter-efficient fine-tuning (PEFT) methods that can provide good accuracy under limited computational and memory budgets in the context of large language models (LLMs). We present a new PEFT method called Robust Adaptation (RoSA) inspired by robust principal component analysis (PCA) that jointly trains $\textit{low-rank}$ and $\textit{highly-sparse}$ components on top of a set of fixed pretrained weights to efficiently approximate the performance of a full-fine-tuning (FFT) solution. Across a series of challenging generative tasks such as grade-school math and SQL query generation, which require fine-tuning for good performance, we show that RoSA outperforms both LoRA and pure sparse fine-tuning, at the same parameter budget. We provide system support for RoSA to complement the training algorithm, specifically in the form of sparse GPU kernels which enable memory- and computationally-efficient training. Our code will be made available at https://github.com/IST-DASLab/RoSA.
Abstract（参考訳）: 本研究では,大規模言語モデル (LLM) の文脈において,限られた計算・メモリ予算の下で高い精度を達成できるパラメータ効率細調整法について検討する。本稿では,ロバスト適応 (RoSA) と呼ばれる新しいPEFT手法を提案する。ロバスト適応 (RoSA) はロバストな主成分分析 (PCA) にインスパイアされ,固定された事前学習重みのセットの上に$\textit{low-rank}$と$\textit{highly-sparse}$コンポーネントを共同でトレーニングし,フルファインチューニング (FFT) ソリューションの性能を効率的に近似する。小学校数学やSQLクエリ生成など,優れたパフォーマンスのために微調整を必要とする一連の課題生成タスクにおいて,RoSAがLoRAと純粋スパース細調整の両方を同じパラメータ予算で上回ることを示す。我々は、トレーニングアルゴリズム、特にメモリと計算効率のトレーニングを可能にするスパースGPUカーネルを補完するRoSAのシステムサポートを提供する。私たちのコードはhttps://github.com/IST-DASLab/RoSAで公開されます。

関連論文リスト

Ravan: Multi-Head Low-Rank Adaptation for Federated Fine-Tuning [16.99490636203893]
パラメータ効率とモデル表現率のバランスをとる適応型マルチヘッドLoRA法であるtextscRavanを提案する。ビジョンと言語ベンチマークの実験では、textscRavanは以前のパラメータ効率の基準線よりも2-8%精度が向上している。
論文参考訳（メタデータ） (2025-06-05T20:28:02Z)
Refining Salience-Aware Sparse Fine-Tuning Strategies for Language Models [14.68920095399595]
SPEFT(Sparsity-based PEFT)は、モデルの重み行列にトレーニング可能なスパース適応を導入する。我々は、ゼロコストNASプロキシにインスパイアされたSPEFTのサリエンス指標を初めて体系的に評価した。静的マスキング戦略と動的マスキング戦略を比較し、トレーニング前にゼロでないエントリを事前に決定する静的マスキングが、パフォーマンスを犠牲にすることなく効率を向上することを示した。
論文参考訳（メタデータ） (2024-12-18T04:14:35Z)
ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文参考訳（メタデータ） (2024-12-11T12:31:30Z)
Balancing LoRA Performance and Efficiency with Simple Shard Sharing [8.827921242078883]
textbfOptimal textbfShard textbfIntegration in textbfLoRAは、単純なシャード共有機構を通じて、このトレードオフに対処する新しいPEFTアプローチである。 Fossilsは、標準的なLoRAと、その顕著な変種を、モデルパフォーマンスメトリクスと計算効率の両方で大幅に上回っている。
論文参考訳（メタデータ） (2024-09-19T10:26:42Z)
DoRA: Enhancing Parameter-Efficient Fine-Tuning with Dynamic Rank Distribution [28.589498108609202]
Low-Rank Adaptation (LoRA) は、ウェイト行列の差分パラメータ予算要件を無視したバイパスフレームワークに依存している。 DoRAは、高ランクのLoRA層を構造化シングルランクコンポーネントに分解し、パラメータ予算の動的プルーニングを可能にする。実験結果から,LORAやフルモデルファインチューニングと比較して,DoRAの競争性能が向上することが示された。
論文参考訳（メタデータ） (2024-05-27T17:02:27Z)
Parameter-Efficient Fine-Tuning With Adapters [5.948206235442328]
本研究では,UniPELTフレームワークをベースとした新しい適応手法を提案する。提案手法では, ベースモデルパラメータの最小限の再学習を行うことなく, 事前学習したモデルを新しいタスクに効率的に転送できるアダプタを用いる。
論文参考訳（メタデータ） (2024-05-09T01:40:38Z)
LoRETTA: Low-Rank Economic Tensor-Train Adaptation for Ultra-Low-Parameter Fine-Tuning of Large Language Models [20.5908375260123]
モデル性能を維持しながら計算効率のよい微調整を実現するために,様々なパラメータ効率の微調整技術が提案されている。テンソル-トレイン分解によりトレーニング可能なパラメータを大幅に削減するフレームワークであるLoRETTAを提案する。 LoRETTAは、LLaMA-2-7Bモデルで最大100倍のパラメータで、最も広く使われているPEFT法よりも同等または優れた性能を実現している。
論文参考訳（メタデータ） (2024-02-18T01:20:00Z)
Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。 CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。 CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文参考訳（メタデータ） (2024-01-11T03:08:00Z)
AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning [143.23123791557245]
下流タスクで訓練済みの大規模言語モデルを微調整することは、NLPにおいて重要なパラダイムとなっている。重み行列のパラメータ予算をその重要度に応じて適応的に割り当てるAdaLoRAを提案する。我々は,AdaLoRAの有効性を検証するために,自然言語処理,質問応答,自然言語生成に関する事前学習モデルを用いた広範囲な実験を行った。
論文参考訳（メタデータ） (2023-03-18T22:36:25Z)
Matching Pursuit Based Scheduling for Over-the-Air Federated Learning [67.59503935237676]
本稿では,フェデレートラーニング手法を用いて,オーバー・ザ・エアラーニングのための低複雑さデバイススケジューリングアルゴリズムのクラスを開発する。最先端の提案方式と比較すると,提案方式は極めて低効率なシステムである。提案手法の有効性は,CIFARデータセットを用いた実験により確認した。
論文参考訳（メタデータ） (2022-06-14T08:14:14Z)
Parameter-Efficient Sparsity for Large Language Models Fine-Tuning [63.321205487234074]
私たちはaを提案します。 Sparse- efficient Sparse Training (PST) は、スパース・アウェア・トレーニング中にトレーニング可能なパラメータの数を減少させる手法である。多様なネットワーク(BERT、RoBERTa、GPT-2)を用いた実験では、PSTは従来のスパーシリティ法よりも同等以上の性能を示した。
論文参考訳（メタデータ） (2022-05-23T02:43:45Z)
Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文参考訳（メタデータ） (2022-05-11T17:10:41Z)
Large-scale Optimization of Partial AUC in a Range of False Positive Rates [51.12047280149546]
ROC曲線 (AUC) の下の領域は、機械学習において最も広く使われている分類モデルのパフォーマンス指標の1つである。近年の封筒平滑化技術に基づく効率的な近似勾配降下法を開発した。提案アルゴリズムは,効率のよい解法を欠くランク付けされた範囲損失の和を最小化するためにも利用できる。
論文参考訳（メタデータ） (2022-03-03T03:46:18Z)
[Reproducibility Report] Rigging the Lottery: Making All Tickets Winners [1.6884611234933766]
スパーストレーニングアルゴリズムである$textitRigL$は、既存の密集型トレーニング技術のパフォーマンスに適合または超過したスパースネットワークを直接トレーニングする、と主張している。 Pytorchのスクラッチから$textitRigL$を実装し、報告された値の0.1%以内でCIFAR-10のパフォーマンスを再現する。
論文参考訳（メタデータ） (2021-03-29T17:01:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。