論文の概要: ETHER: Efficient Finetuning of Large-Scale Models with Hyperplane Reflections
- arxiv url: http://arxiv.org/abs/2405.20271v2
- Date: Fri, 11 Oct 2024 12:41:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-14 13:30:15.399883
- Title: ETHER: Efficient Finetuning of Large-Scale Models with Hyperplane Reflections
- Title(参考訳): EtherR:超平面反射による大規模モデルの効率的な微調整
- Authors: Massimo Bini, Karsten Roth, Zeynep Akata, Anna Khoreva,
- Abstract要約: 本稿では,HypErplane Reflectionsによる高効率微調整を行うETHER変換ファミリを提案する。
特に,既存のPEFT法と極めて少ないパラメータで一致または性能を向上するEtheRと緩和ETHER+を導入する。
- 参考スコア(独自算出の注目度): 59.839926875976225
- License:
- Abstract: Parameter-efficient finetuning (PEFT) has become ubiquitous to adapt foundation models to downstream task requirements while retaining their generalization ability. However, the amount of additionally introduced parameters and compute for successful adaptation and hyperparameter searches can explode quickly, especially when deployed at scale to serve numerous individual requests. To ensure effective, parameter-efficient, and hyperparameter-robust adaptation, we propose the ETHER transformation family, which performs Efficient fineTuning via HypErplane Reflections. By design, ETHER transformations require a minimal number of parameters, are less likely to deteriorate model performance, and exhibit robustness to hyperparameter and learning rate choices. In particular, we introduce ETHER and its relaxation ETHER+, which match or outperform existing PEFT methods with significantly fewer parameters ($\sim$$10$-$100$ times lower than LoRA or OFT) across multiple image synthesis and natural language tasks without exhaustive hyperparameter tuning. Finally, we investigate the recent emphasis on Hyperspherical Energy retention for adaptation and raise questions on its practical utility. The code is available at https://github.com/mwbini/ether.
- Abstract(参考訳): パラメータ効率の微調整 (PEFT) は, 一般化能力を維持しつつ, 基礎モデルを下流のタスク要求に適応させるために広く普及している。
しかし、適応とハイパーパラメータ検索を成功させるために追加で導入されたパラメータと計算の量は、特に多数の個別の要求に対処するために大規模にデプロイされた場合、急速に爆発する可能性がある。
本稿では,HypErplane Reflectionsによる高効率微調整を行うETHER変換ファミリを提案する。
設計上、ETHER変換は最小限のパラメータを必要とし、モデル性能を低下させる可能性が低く、ハイパーパラメータや学習速度の選択に対して堅牢性を示す。
特に,ETHERとその緩和法であるETHER+を導入し,既存のPEFTメソッドをパラメータが大幅に少ない(\sim$$10$-$100$T)か,あるいは性能が向上する(\sim$$10$-$100$T)。
最後に, 適応のための超球面エネルギー保持の最近の強調と実用性に関する疑問を提起する。
コードはhttps://github.com/mwbini/ether.comから入手できる。
関連論文リスト
- LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、下流タスクのための大規模な事前学習モデルに効果的に適応する、PEFT (Efficient Fine Tuning) 手法として人気がある。
モデル更新に低階テンソルパラメトリゼーションを用いる新しい手法を提案する。
提案手法は,大規模言語モデルの微調整に有効であり,比較性能を維持しつつ,パラメータ数の大幅な削減を実現している。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z) - Step-by-Step Unmasking for Parameter-Efficient Fine-tuning of Large Language Models [18.877891285367216]
パラメータ効率細調整(PEFT)のクラスは、モデルのパラメータのごく一部だけを選択的に微調整することで、計算上の課題を軽減することを目的としている。
我々はパラメータの重要度を連続的に計算し,パラメータを動的にアンマスクする新しいPEFT法である$textID3$を紹介した。
解析的に、$textID3$は勾配更新数を2倍に減らし、計算効率が向上することを示した。
論文 参考訳(メタデータ) (2024-08-26T17:58:53Z) - Scaling Exponents Across Parameterizations and Optimizers [94.54718325264218]
本稿では,先行研究における重要な仮定を考察し,パラメータ化の新たな視点を提案する。
私たちの経験的調査には、3つの組み合わせでトレーニングされた数万のモデルが含まれています。
最高の学習率のスケーリング基準は、以前の作業の仮定から除外されることがよくあります。
論文 参考訳(メタデータ) (2024-07-08T12:32:51Z) - Parameter-Efficient Fine-Tuning With Adapters [5.948206235442328]
本研究では,UniPELTフレームワークをベースとした新しい適応手法を提案する。
提案手法では, ベースモデルパラメータの最小限の再学習を行うことなく, 事前学習したモデルを新しいタスクに効率的に転送できるアダプタを用いる。
論文 参考訳(メタデータ) (2024-05-09T01:40:38Z) - Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - Advancing Parameter Efficiency in Fine-tuning via Representation Editing [41.81020951061438]
我々はRepresentation EDiting (RED)というニューラルモデルのための新しい微調整手法を提案する。
REDは、スケーリングとバイアス処理の適用を通じて、いくつかのレイヤで生成された表現を修正します。
注目すべきは、REDは完全なパラメータの微調整と他のPEFT手法に匹敵する、あるいは優れている結果を達成することである。
論文 参考訳(メタデータ) (2024-02-23T08:21:02Z) - Parameter-Efficient Fine-Tuning without Introducing New Latency [7.631596468553607]
隠れ表現の代わりに事前学習パラメータに直接アダプタを適用する新しいアダプタ技術を導入する。
提案手法は,性能と記憶効率の両面で新たな最先端性を実現し,完全微調整のパラメータは0.03%に過ぎなかった。
論文 参考訳(メタデータ) (2023-05-26T08:44:42Z) - Sensitivity-Aware Visual Parameter-Efficient Fine-Tuning [91.5113227694443]
私たちは新しいビジュアルを提案します。
Sensuous-Aware Fine-Tuning (SPT) スキーム。
SPTはタスク固有の重要な位置にトレーニング可能なパラメータを割り当てる。
ダウンストリーム認識タスクの幅広い実験により,SPTは既存のPEFT法と相補的であることが示された。
論文 参考訳(メタデータ) (2023-03-15T12:34:24Z) - AUTOMATA: Gradient Based Data Subset Selection for Compute-Efficient
Hyper-parameter Tuning [72.54359545547904]
ハイパーパラメータチューニングのための勾配に基づくサブセット選択フレームワークを提案する。
ハイパーパラメータチューニングに勾配ベースのデータサブセットを用いることで、3$times$-30$times$のターンアラウンド時間とスピードアップが大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-03-15T19:25:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。