論文の概要: RoCoFT: Efficient Finetuning of Large Language Models with Row-Column Updates
- arxiv url: http://arxiv.org/abs/2410.10075v1
- Date: Tue, 15 Oct 2024 04:00:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 03:14:03.591600
- Title: RoCoFT: Efficient Finetuning of Large Language Models with Row-Column Updates
- Title(参考訳): RoCoFT:Row-Columnアップデートによる大規模言語モデルの効率的な微調整
- Authors: Md Kowsher, Tara Esmaeilbeig, Chun-Nam Yu, Mojtaba Soltanalian, Niloofar Yousefi,
- Abstract要約: RoCoFTは大規模言語モデルのためのパラメータ効率の良い微調整法である。
提案手法は,最先端PEFT法と同等あるいは良好な精度を示すことを示す。
- 参考スコア(独自算出の注目度): 8.554033426612538
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose RoCoFT, a parameter-efficient fine-tuning method for large-scale language models (LMs) based on updating only a few rows and columns of the weight matrices in transformers. Through extensive experiments with medium-size LMs like BERT and RoBERTa, and larger LMs like Bloom-7B, Llama2-7B, and Llama2-13B, we show that our method gives comparable or better accuracies than state-of-art PEFT methods while also being more memory and computation-efficient. We also study the reason behind the effectiveness of our method with tools from neural tangent kernel theory. We empirically demonstrate that our kernel, constructed using a restricted set of row and column parameters, are numerically close to the full-parameter kernel and gives comparable classification performance. Ablation studies are conducted to investigate the impact of different algorithmic choices, including the selection strategy for rows and columns as well as the optimal rank for effective implementation of our method.
- Abstract(参考訳): 変圧器の重み行列の行数列と列数のみを更新した大規模言語モデル(LM)のパラメータ効率の良い微調整法であるRoCoFTを提案する。
BERTやRoBERTaといった中規模のLMや,Bloom-7B,Llama2-7B,Llama2-13Bといった大規模LMによる広範な実験により,我々の手法は,最先端PEFT法と同等あるいは優れた精度を示しながら,メモリと計算効率も向上することを示した。
また,ニューラルネットワークカーネル理論のツールを用いて,本手法の有効性について検討した。
列パラメータと列パラメータの制限されたセットを用いて構築されたカーネルが、数値的に全パラメータカーネルに近接していることを実証的に実証し、同等の分類性能を与える。
本研究では,行と列の選択戦略や,提案手法を効果的に実装するための最適なランクなど,アルゴリズム選択の影響について検討する。
関連論文リスト
- LoKO: Low-Rank Kalman Optimizer for Online Fine-Tuning of Large Models [21.889177019111525]
数百万から数十億のパラメータを持つ大規模モデルをスクラッチからトレーニングすると、かなりの計算コストが発生する。
低ランク適応 (LoRA) を用いて, 勾配に基づく特定のタスクに対して, パラメータ数の削減のみを適応させる。
我々は、十分に確立されたコンピュータビジョンと言語モデルでうまく機能する堅牢なアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-15T12:41:31Z) - LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、下流タスクのための大規模な事前学習モデルに効果的に適応する、PEFT (Efficient Fine Tuning) 手法として人気がある。
モデル更新に低階テンソルパラメトリゼーションを用いる新しい手法を提案する。
提案手法は,大規模言語モデルの微調整に有効であり,比較性能を維持しつつ,パラメータ数の大幅な削減を実現している。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z) - Multiple Rotation Averaging with Constrained Reweighting Deep Matrix Factorization [22.487393413405954]
コンピュータビジョンとロボティクス領域では、複数の回転平均化が重要な役割を果たす。
本稿では,データパターンを学習方法でマイニングするための効率的な回転平均化手法を提案する。
論文 参考訳(メタデータ) (2024-09-15T16:50:27Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning [105.11844150736536]
低ランク適応は、大規模言語モデルのためのパラメータ効率の良い微調整法として人気がある。
トレーニング可能なパラメータ数を同じ数に保ちながら、高階更新を実現するために2乗行列を用いるMoRAと呼ばれる新しい手法を提案する。
本手法はメモリ集約型タスクではLoRAより優れ,他のタスクでは同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-20T15:48:32Z) - Scaling Sparse Fine-Tuning to Large Language Models [67.59697720719672]
大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。
本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。
提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
論文 参考訳(メタデータ) (2024-01-29T18:43:49Z) - Generalized Low-Rank Update: Model Parameter Bounds for Low-Rank
Training Data Modifications [16.822770693792823]
少数のインスタンスや機能が加えられたり削除されたりした場合に最適なモデルが得られるインクリメンタル機械学習(ML)手法を開発した。
この問題は、クロスバリデーション(CV)や特徴選択といったモデル選択において、実際に重要である。
本稿では,線形推定器の低ランク更新フレームワークを,正規化された経験的リスク最小化のクラスとして定式化したMLメソッドに拡張する一般低ランク更新(GLRU)手法を提案する。
論文 参考訳(メタデータ) (2023-06-22T05:00:11Z) - A Coreset Learning Reality Check [33.002265576337486]
サブサンプリングアルゴリズムは、巨大なデータセットにモデルを適合させる前に、データサイズを減らすための自然なアプローチである。
近年,データ行列から行をサブサンプリングする手法がいくつか提案されている。
コアセットおよび最適サブサンプリング文献から引き出されたロジスティック回帰の複数の手法を比較し,その有効性の矛盾を明らかにする。
論文 参考訳(メタデータ) (2023-01-15T19:26:17Z) - Robust convex biclustering with a tuning-free method [10.603857319905936]
本稿では,ハマーロスを用いた凸複クラスタリングアルゴリズムのロバストなバージョンを提案する。
新たに導入されたロバスト化パラメータは、最適なパラメータを選択するのに余分な負担をもたらす。
実生活のバイオメディカル・アプリケーションも紹介されている。
論文 参考訳(メタデータ) (2022-12-06T16:37:11Z) - Sparse high-dimensional linear regression with a partitioned empirical
Bayes ECM algorithm [62.997667081978825]
疎高次元線形回帰に対する計算効率が高く強力なベイズ的手法を提案する。
パラメータに関する最小の事前仮定は、プラグイン経験的ベイズ推定(英語版)を用いて用いられる。
提案手法はRパッケージプローブに実装されている。
論文 参考訳(メタデータ) (2022-09-16T19:15:50Z) - Improved guarantees and a multiple-descent curve for Column Subset
Selection and the Nystr\"om method [76.73096213472897]
我々は,データ行列のスペクトル特性を利用して近似保証を改良する手法を開発した。
我々のアプローチは、特異値減衰の既知の速度を持つデータセットのバウンダリが大幅に向上する。
RBFパラメータを変更すれば,改良された境界線と多重発振曲線の両方を実データセット上で観測できることが示される。
論文 参考訳(メタデータ) (2020-02-21T00:43:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。