論文の概要: GIFT: Generative Interpretable Fine-Tuning
- arxiv url: http://arxiv.org/abs/2312.00700v2
- Date: Mon, 3 Jun 2024 17:57:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 20:11:43.073529
- Title: GIFT: Generative Interpretable Fine-Tuning
- Title(参考訳): GIFT:ジェネレーティブ・インタプリタブル・ファインチューニング
- Authors: Chinmay Savadikar, Xi Song, Tianfu Wu,
- Abstract要約: 予め訓練したトランスフォーマーバックボーンのパラメータ効率向上のためのGIFT(Generative Interpretable Fine-Tuning)を提案する。
$Theta$は、微調整のために選択されたすべてのレイヤによって共有されるため、ローランド適応(LoRA)と比較して、トレーニング可能なパラメータが大幅に少なくなる。
- 参考スコア(独自算出の注目度): 8.481707805559589
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Generative Interpretable Fine-Tuning (GIFT) for parameter-efficient fine-tuning of pretrained Transformer backbones, which can be formulated as a simple factorized matrix multiplication in the parameter space or equivalently in the activation space, and thus embraces built-in interpretability. For a pretrained layer with weights $\omega\in \mathbb{R}^{d_{out}\times d_{in}}$, our proposed GIFT learns the fine-tuned weights $\hat{\omega}$ directly from $\omega$ as $\hat{\omega}=\omega \cdot (\mathbb{I}+\phi_{d_{in}\times r}\cdot \psi_{r\times d_{in}})$ where $\mathbb{I}$ is an identity matrix. $\Theta=(\phi, \psi)$ are the learnable parameters of the two linear layers of GIFT with $r$ being a hyper-parameter. $\Theta$ is shared by all the layers selected for fine-tuning, resulting in significantly fewer trainable parameters compared to Low-Rank Adaptation (LoRA). We perform comprehensive evaluations on natural language tasks (commonsense reasoning and sequence classification) and computer vision tasks (visual fine-grained classification). We obtain the best accuracy and parameter efficiency among baselines both on the Commonsense170k reasoning benchmark using LLaMA-1 (7B) and Llama-2 (7B)/-3 (8B) and on the FGVC and VTAB visual recognition benchmarks using ImageNet-21k pretrained Vision Transformer (ViT-B/16). Notably, we obtain 5.9% absolute increase in average accuracy with 53.8 times reduction of parameters on Commonsense170k using Llama-3 (8B) compared to LoRA. We obtain performance comparable to LoRA on the GLUE benchmark but with significantly fewer parameters using RoBERTa-Base/Large. We show the output of the first linear layer (i.e., $\omega\cdot \phi$) is surprisingly interpretable, which can play the role of a token-clustering head as a by-product to localize meaningful objects/parts in images for computer vision tasks. Our code is publicly available.
- Abstract(参考訳): 本稿では,パラメータ空間における単純な分解行列乗算あるいはアクティベーション空間における等価な分解行列乗算として定式化できる,事前訓練されたトランスフォーマーバックボーンのパラメータ効率の高い微調整のための生成的解釈可能ファインタニング(GIFT)を提案する。
重みが$\omega\in \mathbb{R}^{d_{out}\times d_{in}}$に対して、提案したGIFTは、$\omega$ as $\hat{\omega}$から直接$\omega$ as $\hat{\omega}=\omega \cdot (\mathbb{I}+\phi_{d_{in}\times r}\cdot \psi_{r\times d_{in}})$から$\mathbb{I}$を恒等行列とする。
$\Theta=(\phi, \psi)$は、GIFTの2つの線形レイヤの学習可能なパラメータで、r$はハイパーパラメータである。
$\Theta$は、微調整のために選択されたすべてのレイヤによって共有されるため、ローランド適応(LoRA)と比較して、トレーニング可能なパラメータが大幅に少ない。
自然言語タスク(常識推論とシーケンス分類)とコンピュータビジョンタスク(視覚的きめ細かい分類)の総合的な評価を行う。
我々は,LLaMA-1 (7B) とLlama-2 (7B)/-3 (8B) を用いたCommonsense170k推論ベンチマークと,ImageNet-21k事前訓練された視覚変換器 (ViT-B/16) を用いたFGVCおよびVTAB視覚認識ベンチマークにおいて,ベースライン間の最良の精度とパラメータ効率を得る。
特に,Llama-3 (8B) を用いたCommonsense170kのパラメータの53.8倍の精度で平均精度が5.9%向上した。
GLUEベンチマークではLoRAに匹敵する性能を示したが,RoBERTa-Base/Largeではパラメータが大幅に少なかった。
最初の線形層(つまり$\omega\cdot \phi$)の出力は驚くほど解釈可能であり、これはコンピュータビジョンタスクのイメージに意味のあるオブジェクトやパーツをローカライズするための副産物としてトークンクラスタリングヘッドの役割を果たすことができる。
私たちのコードは公開されています。
関連論文リスト
- ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、PEFT (Efficient Fine Tuning) 法として人気がある。
よりコンパクトで柔軟な表現を可能にする高階Candecomp/Parafac(CP)分解を提案する。
本手法は,比較性能を維持しつつパラメータ数を削減できる。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z) - SARA: Singular-Value Based Adaptive Low-Rank Adaption [4.135688713311511]
パラメータ効率のよい微細チューニング(PEFT)手法としてのLoRAは、推論オーバーヘッドを加算しないために広く用いられている。
本研究ではまず,各層の性能とランクの関係をSVDを用いて解析する。
これに基づいてSARA(Singular-Value Based Adaptive Low-Rank Adaption)を設計する。
論文 参考訳(メタデータ) (2024-08-06T16:39:42Z) - Parameter-Efficient Fine-Tuning With Adapters [5.948206235442328]
本研究では,UniPELTフレームワークをベースとした新しい適応手法を提案する。
提案手法では, ベースモデルパラメータの最小限の再学習を行うことなく, 事前学習したモデルを新しいタスクに効率的に転送できるアダプタを用いる。
論文 参考訳(メタデータ) (2024-05-09T01:40:38Z) - MELoRA: Mini-Ensemble Low-Rank Adapters for Parameter-Efficient Fine-Tuning [71.50432879573614]
低ランク適応 (LoRA) は、適応過程が本質的に低次元であるという考えに基づいている。
我々は、より高階を維持しながらトレーニング可能なパラメータを少なくするミニアンサンブルな低ランクアダプタMELoRAを提案する。
実験結果から, 自然言語理解タスクの8倍のトレーニングパラメータ, 続くタスクの36倍のトレーニングパラメータが得られた。
論文 参考訳(メタデータ) (2024-02-27T07:14:12Z) - Advancing Parameter Efficiency in Fine-tuning via Representation Editing [41.81020951061438]
我々はRepresentation EDiting (RED)というニューラルモデルのための新しい微調整手法を提案する。
REDは、スケーリングとバイアス処理の適用を通じて、いくつかのレイヤで生成された表現を修正します。
注目すべきは、REDは完全なパラメータの微調整と他のPEFT手法に匹敵する、あるいは優れている結果を達成することである。
論文 参考訳(メタデータ) (2024-02-23T08:21:02Z) - Sensitivity-Aware Visual Parameter-Efficient Fine-Tuning [91.5113227694443]
私たちは新しいビジュアルを提案します。
Sensuous-Aware Fine-Tuning (SPT) スキーム。
SPTはタスク固有の重要な位置にトレーニング可能なパラメータを割り当てる。
ダウンストリーム認識タスクの幅広い実験により,SPTは既存のPEFT法と相補的であることが示された。
論文 参考訳(メタデータ) (2023-03-15T12:34:24Z) - Scaling & Shifting Your Features: A New Baseline for Efficient Model
Tuning [126.84770886628833]
既存の微調整法は、事前訓練されたモデルの全てのパラメータ(フル微調整)をチューニングするか、最後の線形層(線形プローブ)のみをチューニングする。
そこで本研究では,SSFと呼ばれるパラメータ効率の高いファインタニング手法を提案する。
論文 参考訳(メタデータ) (2022-10-17T08:14:49Z) - LoRA: Low-Rank Adaptation of Large Language Models [71.75808607987281]
Low-Rank Adaptation (LoRA)はトレーニング済みモデルの重みを凍結し、トレーニング可能な階数分解をTransformerアーキテクチャの各層に注入する。
GPT-3では、LoRAはトレーニング可能なパラメータの数を1万倍に減らし、計算ハードウェアの要求をフル微調整の3倍に削減できる。
論文 参考訳(メタデータ) (2021-06-17T17:37:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。