論文の概要: GIFT: Generative Interpretable Fine-Tuning
- arxiv url: http://arxiv.org/abs/2312.00700v2
- Date: Mon, 3 Jun 2024 17:57:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 20:11:43.073529
- Title: GIFT: Generative Interpretable Fine-Tuning
- Title(参考訳): GIFT:ジェネレーティブ・インタプリタブル・ファインチューニング
- Authors: Chinmay Savadikar, Xi Song, Tianfu Wu,
- Abstract要約: 予め訓練したトランスフォーマーバックボーンのパラメータ効率向上のためのGIFT(Generative Interpretable Fine-Tuning)を提案する。
$Theta$は、微調整のために選択されたすべてのレイヤによって共有されるため、ローランド適応(LoRA)と比較して、トレーニング可能なパラメータが大幅に少なくなる。
- 参考スコア(独自算出の注目度): 8.481707805559589
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Generative Interpretable Fine-Tuning (GIFT) for parameter-efficient fine-tuning of pretrained Transformer backbones, which can be formulated as a simple factorized matrix multiplication in the parameter space or equivalently in the activation space, and thus embraces built-in interpretability. For a pretrained layer with weights $\omega\in \mathbb{R}^{d_{out}\times d_{in}}$, our proposed GIFT learns the fine-tuned weights $\hat{\omega}$ directly from $\omega$ as $\hat{\omega}=\omega \cdot (\mathbb{I}+\phi_{d_{in}\times r}\cdot \psi_{r\times d_{in}})$ where $\mathbb{I}$ is an identity matrix. $\Theta=(\phi, \psi)$ are the learnable parameters of the two linear layers of GIFT with $r$ being a hyper-parameter. $\Theta$ is shared by all the layers selected for fine-tuning, resulting in significantly fewer trainable parameters compared to Low-Rank Adaptation (LoRA). We perform comprehensive evaluations on natural language tasks (commonsense reasoning and sequence classification) and computer vision tasks (visual fine-grained classification). We obtain the best accuracy and parameter efficiency among baselines both on the Commonsense170k reasoning benchmark using LLaMA-1 (7B) and Llama-2 (7B)/-3 (8B) and on the FGVC and VTAB visual recognition benchmarks using ImageNet-21k pretrained Vision Transformer (ViT-B/16). Notably, we obtain 5.9% absolute increase in average accuracy with 53.8 times reduction of parameters on Commonsense170k using Llama-3 (8B) compared to LoRA. We obtain performance comparable to LoRA on the GLUE benchmark but with significantly fewer parameters using RoBERTa-Base/Large. We show the output of the first linear layer (i.e., $\omega\cdot \phi$) is surprisingly interpretable, which can play the role of a token-clustering head as a by-product to localize meaningful objects/parts in images for computer vision tasks. Our code is publicly available.
- Abstract(参考訳): 本稿では,パラメータ空間における単純な分解行列乗算あるいはアクティベーション空間における等価な分解行列乗算として定式化できる,事前訓練されたトランスフォーマーバックボーンのパラメータ効率の高い微調整のための生成的解釈可能ファインタニング(GIFT)を提案する。
重みが$\omega\in \mathbb{R}^{d_{out}\times d_{in}}$に対して、提案したGIFTは、$\omega$ as $\hat{\omega}$から直接$\omega$ as $\hat{\omega}=\omega \cdot (\mathbb{I}+\phi_{d_{in}\times r}\cdot \psi_{r\times d_{in}})$から$\mathbb{I}$を恒等行列とする。
$\Theta=(\phi, \psi)$は、GIFTの2つの線形レイヤの学習可能なパラメータで、r$はハイパーパラメータである。
$\Theta$は、微調整のために選択されたすべてのレイヤによって共有されるため、ローランド適応(LoRA)と比較して、トレーニング可能なパラメータが大幅に少ない。
自然言語タスク(常識推論とシーケンス分類)とコンピュータビジョンタスク(視覚的きめ細かい分類)の総合的な評価を行う。
我々は,LLaMA-1 (7B) とLlama-2 (7B)/-3 (8B) を用いたCommonsense170k推論ベンチマークと,ImageNet-21k事前訓練された視覚変換器 (ViT-B/16) を用いたFGVCおよびVTAB視覚認識ベンチマークにおいて,ベースライン間の最良の精度とパラメータ効率を得る。
特に,Llama-3 (8B) を用いたCommonsense170kのパラメータの53.8倍の精度で平均精度が5.9%向上した。
GLUEベンチマークではLoRAに匹敵する性能を示したが,RoBERTa-Base/Largeではパラメータが大幅に少なかった。
最初の線形層(つまり$\omega\cdot \phi$)の出力は驚くほど解釈可能であり、これはコンピュータビジョンタスクのイメージに意味のあるオブジェクトやパーツをローカライズするための副産物としてトークンクラスタリングヘッドの役割を果たすことができる。
私たちのコードは公開されています。
関連論文リスト
- Parameter-Efficient Fine-Tuning with Discrete Fourier Transform [26.563344030824414]
ローランク適応(LoRA)は近年、微調整基礎モデルに多くの関心を集めている。
デルタW$を空間領域の行列として扱い、そのスペクトル係数のごく一部しか学習しないフーリエFTを導入する。
提案手法は,様々なタスクにおいてLoRAよりも少ないパラメータで同等あるいは優れた性能を示す。
論文 参考訳(メタデータ) (2024-05-05T17:15:24Z) - AFLoRA: Adaptive Freezing of Low Rank Adaptation in Parameter Efficient Fine-Tuning of Large Models [5.981614673186146]
私たちは小説を提示する。
-PEFT(Adaptive Freezing of Low Rank Adaptation)法
具体的には、トレーニング可能な低ランク行列の平行経路、すなわち、ダウンプロジェクションとアッププロジェクション行列を加え、それぞれに特徴変換ベクトルが続く。
実験結果から,GLUEベンチマークで評価した結果,平均値0.85%以上の改善を達成できることが確認された。
論文 参考訳(メタデータ) (2024-03-20T03:07:50Z) - Asymmetry in Low-Rank Adapters of Foundation Models [47.310550805920585]
本稿では、低ランクアダプタ行列の重要性において、予期せぬ非対称性を特徴付け、活用する。
我々は、細調整の$B$が、細調整の$A$よりも本質的に効果的であることを示し、ランダムな未トレーニングの$A$は、細調整の$A$よりもほぼ同等に機能することを示します。
論文 参考訳(メタデータ) (2024-02-26T18:59:12Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - Scaling Sparse Fine-Tuning to Large Language Models [67.59697720719672]
大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。
本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。
提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
論文 参考訳(メタデータ) (2024-01-29T18:43:49Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - $\mathcal{Y}$-Tuning: An Efficient Tuning Paradigm for Large-Scale
Pre-Trained Models via Label Representation Learning [47.742220473129684]
$mathcalY$-tuningは、与えられたタスクで定義されたラベルの密度の高い表現を学び、それらを固定された特徴表現に調整する。
1.6億のパラメータを持つ$textDeBERTa_textXXL$の場合、$mathcalY$-tuningはGLUE Benchmarkの完全な微調整の96%以上のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-02-20T13:49:34Z) - BERMo: What can BERT learn from ELMo? [6.417011237981518]
言語モデル(ELMo)の埋め込みにおいて提案する線形結合スキームを用いて,異なるネットワーク深さのスケールした内部表現を組み合わせる。
提案手法の利点は,(1)下流タスクの勾配流の改善,(2)代表力の向上である。
論文 参考訳(メタデータ) (2021-10-18T17:35:41Z) - Provably Efficient Reinforcement Learning for Discounted MDPs with
Feature Mapping [99.59319332864129]
本稿では,割引決定(MDP)のための強化学習について検討する。
本稿では,特徴写像を利用した新しいアルゴリズムを提案し,$tilde O(dsqrtT/ (1-gamma)2)$ regretを求める。
以上の結果から,提案した強化学習アルゴリズムは,最大1-γ-0.5$の係数でほぼ最適であることが示唆された。
論文 参考訳(メタデータ) (2020-06-23T17:08:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。