論文の概要: ReFT: Representation Finetuning for Language Models
- arxiv url: http://arxiv.org/abs/2404.03592v1
- Date: Thu, 4 Apr 2024 17:00:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 14:02:35.706887
- Title: ReFT: Representation Finetuning for Language Models
- Title(参考訳): ReFT:言語モデルのための表現ファインタニング
- Authors: Zhengxuan Wu, Aryaman Arora, Zheng Wang, Atticus Geiger, Dan Jurafsky, Christopher D. Manning, Christopher Potts,
- Abstract要約: 我々は、$textbfRepresentation Finetuning (ReFT)$メソッドのファミリーを開発する。
LoReFTは、従来の最先端PEFTよりも10x-50倍高いパラメータ効率の介入を学習する。
本稿では,8つのコモンセンス推論タスク,4つの算術推論タスク,Alpaca-Eval v1.0,GLUEについて紹介する。
- 参考スコア(独自算出の注目度): 74.51093640257892
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parameter-efficient fine-tuning (PEFT) methods seek to adapt large models via updates to a small number of weights. However, much prior interpretability work has shown that representations encode rich semantic information, suggesting that editing representations might be a more powerful alternative. Here, we pursue this hypothesis by developing a family of $\textbf{Representation Finetuning (ReFT)}$ methods. ReFT methods operate on a frozen base model and learn task-specific interventions on hidden representations. We define a strong instance of the ReFT family, Low-rank Linear Subspace ReFT (LoReFT). LoReFT is a drop-in replacement for existing PEFTs and learns interventions that are 10x-50x more parameter-efficient than prior state-of-the-art PEFTs. We showcase LoReFT on eight commonsense reasoning tasks, four arithmetic reasoning tasks, Alpaca-Eval v1.0, and GLUE. In all these evaluations, LoReFT delivers the best balance of efficiency and performance, and almost always outperforms state-of-the-art PEFTs. We release a generic ReFT training library publicly at https://github.com/stanfordnlp/pyreft.
- Abstract(参考訳): パラメータ効率のよい微調整法(PEFT)は、少数の重みを更新することで大きなモデルを適応させようとする。
しかし、それ以前の解釈可能性の研究は、表現がリッチな意味情報をエンコードしていることを示し、表現の編集がより強力な代替手段である可能性を示唆している。
ここでは、$\textbf{Representation Finetuning (ReFT)$メソッドのファミリーを開発することで、この仮説を追求する。
ReFTメソッドはフリーズベースモデル上で動作し、隠れた表現に対するタスク固有の介入を学ぶ。
本稿では,低ランク線形部分空間 ReFT (LoReFT) を強く定義する。
LoReFTは既存のPEFTの代替品であり、従来の最先端PEFTよりも10x-50倍高いパラメータ効率の介入を学ぶ。
本稿では,8つのコモンセンス推論タスク,4つの算術推論タスク,Alpaca-Eval v1.0,GLUEについて紹介する。
これらすべての評価において、LoReFTは効率と性能の最良のバランスを提供し、ほぼ常に最先端のPEFTよりも優れています。
ReFTトレーニングライブラリをhttps://github.com/stanfordnlp/pyreft.comで公開しています。
関連論文リスト
- LoRETTA: Low-Rank Economic Tensor-Train Adaptation for
Ultra-Low-Parameter Fine-Tuning of Large Language Models [20.5908375260123]
モデル性能を維持しながら計算効率のよい微調整を実現するために,様々なパラメータ効率の微調整技術が提案されている。
テンソル-トレイン分解によりトレーニング可能なパラメータを大幅に削減するフレームワークであるLoRETTAを提案する。
LoRETTAは、LLaMA-2-7Bモデルで最大100倍のパラメータで、最も広く使われているPEFT法よりも同等または優れた性能を実現している。
論文 参考訳(メタデータ) (2024-02-18T01:20:00Z) - Less Could Be Better: Parameter-efficient Fine-tuning Advances Medical
Vision Foundation Models [71.18275399694689]
医療視基盤モデルにおけるPEFTの有効性はまだ不明である。
NIH ChestX-ray14のラベル付きデータを用いたAUROCスコアの80.6%など,さまざまなデータ効率の学習タスクに対して,新たな最先端技術を構築した。
本研究は, PEFTを用いた医用画像の伝達学習において, コミュニティの注目を集めることが期待できる。
論文 参考訳(メタデータ) (2024-01-22T18:59:07Z) - ComPEFT: Compression for Communicating Parameter Efficient Updates via
Sparsification and Quantization [100.90624220423634]
PEFTモデルにおける微調整残差(タスクベクトル)を圧縮する新しい手法であるComPEFTを提案する。
200M - 65Bパラメータを持つT5, T0, LLaMA ベースのモデルにおいて, ComPEFT は圧縮比 8x - 50x を達成する。
論文 参考訳(メタデータ) (2023-11-22T05:28:59Z) - $BT^2$: Backward-compatible Training with Basis Transformation [107.37014712361788]
検索システムは、より良い表現モデルに更新する際に、ギャラリー内のすべてのデータの表現を再計算する必要があることが多い。
このプロセスはバックフィルとして知られており、ギャラリーが何十億ものサンプルを含んでいる現実世界では特にコストがかかる。
近年、研究者らは、新しい表現モデルを補助的損失で訓練し、古い表現と後方互換性を持たせることができる、後方互換性トレーニング(BCT)のアイデアを提案している。
論文 参考訳(メタデータ) (2022-11-08T04:00:23Z) - Scaling Laws Beyond Backpropagation [64.0476282000118]
因果デコーダのみの変換器を効率的に訓練するための直接フィードバックアライメントの有効性について検討した。
DFAはバックプロパゲーションよりも効率的なスケーリングを提供していないことが分かりました。
論文 参考訳(メタデータ) (2022-10-26T10:09:14Z) - When does Parameter-Efficient Transfer Learning Work for Machine
Translation? [8.862707047517913]
以前の研究は、PEFTは機械翻訳(MT)ではうまく機能しないことを示している。
我々は,(1)パラメータ予算,(2)言語ペアの多種多様なセット,(3)事前学習モデルを考慮した,MT用PEFTの総合的な実証的研究を行った。
事前学習モデルが大きいPEFTを用いて、より小さなモデルで完全な微調整を行うことができ、訓練データサイズが小さい場合には、同じ事前学習モデルで完全な微調整を行う。
論文 参考訳(メタデータ) (2022-05-23T12:49:46Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。