論文の概要: GIFT: Generative Interpretable Fine-Tuning
- arxiv url: http://arxiv.org/abs/2312.00700v3
- Date: Mon, 8 Jul 2024 01:59:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 03:08:43.394497
- Title: GIFT: Generative Interpretable Fine-Tuning
- Title(参考訳): GIFT:ジェネレーティブ・インタプリタブル・ファインチューニング
- Authors: Chinmay Savadikar, Xi Song, Tianfu Wu,
- Abstract要約: 予め訓練したトランスフォーマーバックボーンのパラメータ効率向上のためのGIFT(Generative Interpretable Fine-Tuning)を提案する。
$Theta$は、微調整のために選択されたすべてのレイヤで共有できる。
最初の線形層(すなわち$omegacdot phi$)の出力が驚くほど解釈可能であることを示す。
- 参考スコア(独自算出の注目度): 8.481707805559589
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Generative Interpretable Fine-Tuning (GIFT) for parameter-efficient fine-tuning of pretrained Transformer backbones, which can be formulated as a simple factorized matrix multiplication in the parameter space or equivalently in the activation/representation space, and thus embraces built-in interpretability. For a layer with weights $\omega\in \mathbb{R}^{d_{out}\times d_{in}}$, our proposed GIFT learns the fine-tuned weights $\hat{\omega}$ directly from $\omega$ as $\hat{\omega}=\omega\cdot (\mathbb{I}+\phi_{d_{in}\times r}\cdot\psi_{r\times d_{in}})$. $\Theta=(\phi, \psi)$ are the learnable parameters of the two linear layers. $\Theta$ can be shared by all layers selected for fine-tuning (e.g., all the Query and Value layers), or can be layer-type specific (e.g., different $\Theta$'s used for Query and Value), resulting in significantly fewer trainable parameters compared to layer-specific Low-Rank Adaptation (LoRA). We perform comprehensive evaluations on natural language tasks (commonsense and arithmetic reasoning, instruction tuning, and sequence classification), and fine-grained visual classification tasks. We obtain the best performance and parameter efficiency among baselines on commonsense reasoning, instruction tuning and visual recognition benchmarks. Compared to LoRA, we obtain 5.9% absolute increase in average accuracy with 53.8 times reduction of parameters on Commonsense170k using Llama-3 (8B), and 5.4% absolute increase in the win rate with 4 times reduction of parameters using Llama-2 (7B) during instruction tuning. Our GIFT also obtains a slightly higher win rate on instruction tuning than GPT 3.5 (Turbo 1106). We show the output of the first linear layer (i.e., $\omega\cdot \phi$) is surprisingly interpretable, which can play the role of a token-clustering head as a by-product to localize meaningful objects/parts in images for computer vision tasks.
- Abstract(参考訳): 本稿では、パラメータ空間における単純な分解行列乗算や、アクティベーション/表現空間における等価な分解行列乗算として定式化できる、事前訓練されたトランスフォーマーバックボーンのパラメータ効率の良い微調整のためのGIFT(Generative Interpretable Fine-Tuning)を提案する。
重み$\omega\in \mathbb{R}^{d_{out}\times d_{in}}$に対して、提案したGIFTは、$\omega$ as $\hat{\omega}=\omega\cdot (\mathbb{I}+\phi_{d_{in}\times r}\cdot\psi_{r\times d_{in}})$から直接、微調整された重み$\hat{\omega}$を学習する。
$\Theta=(\phi, \psi)$は2つの線形層の学習可能なパラメータである。
$\Theta$は、微調整のために選択されたすべてのレイヤ(例えば、クエリとバリューのすべてのレイヤ)で共有できるし、レイヤタイプ固有のもの(例えば、クエリとバリューに使用される$\Theta$)でもよい。
自然言語タスク(常識,算術的推論,命令チューニング,シーケンス分類)ときめ細かい視覚的分類タスクについて包括的な評価を行う。
我々は,コモンセンス推論,インストラクションチューニング,視覚認識ベンチマークに基づくベースライン間の最高の性能とパラメータ効率を得る。
LoRAと比較して,Llama-3 (8B) を用いたCommonsense170kのパラメータの53.8倍の精度で平均精度が5.9%向上し,Llama-2 (7B) によるパラメータの4倍の利得率が5.4%向上した。
また,GPT 3.5 (Turbo 1106) よりも命令調律の勝利率が若干高い。
最初の線形層(つまり$\omega\cdot \phi$)の出力は驚くほど解釈可能であり、これはコンピュータビジョンタスクのイメージに意味のあるオブジェクトやパーツをローカライズするための副産物としてトークンクラスタリングヘッドの役割を果たすことができる。
関連論文リスト
- LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、下流タスクのための大規模な事前学習モデルに効果的に適応する、PEFT (Efficient Fine Tuning) 手法として人気がある。
モデル更新に低階テンソルパラメトリゼーションを用いる新しい手法を提案する。
提案手法は,大規模言語モデルの微調整に有効であり,比較性能を維持しつつ,パラメータ数の大幅な削減を実現している。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z) - SARA: Singular-Value Based Adaptive Low-Rank Adaption [4.135688713311511]
パラメータ効率のよい微細チューニング(PEFT)手法としてのLoRAは、推論オーバーヘッドを加算しないために広く用いられている。
本研究ではまず,各層の性能とランクの関係をSVDを用いて解析する。
これに基づいてSARA(Singular-Value Based Adaptive Low-Rank Adaption)を設計する。
論文 参考訳(メタデータ) (2024-08-06T16:39:42Z) - Parameter-Efficient Fine-Tuning With Adapters [5.948206235442328]
本研究では,UniPELTフレームワークをベースとした新しい適応手法を提案する。
提案手法では, ベースモデルパラメータの最小限の再学習を行うことなく, 事前学習したモデルを新しいタスクに効率的に転送できるアダプタを用いる。
論文 参考訳(メタデータ) (2024-05-09T01:40:38Z) - Dynamic Adapter Meets Prompt Tuning: Parameter-Efficient Transfer Learning for Point Cloud Analysis [51.14136878142034]
ポイントクラウド分析は、事前訓練されたモデルのポイントクラウドの転送によって、優れたパフォーマンスを実現している。
モデル適応のための既存の方法は通常、高い計算コストに依存するため、非効率な全てのモデルパラメータを更新する。
本稿では,タスク性能とパラメータ効率のトレードオフを考慮した,ポイントクラウド解析のためのパラメータ効率変換学習を提案する。
論文 参考訳(メタデータ) (2024-03-03T08:25:04Z) - MELoRA: Mini-Ensemble Low-Rank Adapters for Parameter-Efficient Fine-Tuning [71.50432879573614]
低ランク適応 (LoRA) は、適応過程が本質的に低次元であるという考えに基づいている。
我々は、より高階を維持しながらトレーニング可能なパラメータを少なくするミニアンサンブルな低ランクアダプタMELoRAを提案する。
実験結果から, 自然言語理解タスクの8倍のトレーニングパラメータ, 続くタスクの36倍のトレーニングパラメータが得られた。
論文 参考訳(メタデータ) (2024-02-27T07:14:12Z) - Advancing Parameter Efficiency in Fine-tuning via Representation Editing [41.81020951061438]
我々はRepresentation EDiting (RED)というニューラルモデルのための新しい微調整手法を提案する。
REDは、スケーリングとバイアス処理の適用を通じて、いくつかのレイヤで生成された表現を修正します。
注目すべきは、REDは完全なパラメータの微調整と他のPEFT手法に匹敵する、あるいは優れている結果を達成することである。
論文 参考訳(メタデータ) (2024-02-23T08:21:02Z) - Sensitivity-Aware Visual Parameter-Efficient Fine-Tuning [91.5113227694443]
私たちは新しいビジュアルを提案します。
Sensuous-Aware Fine-Tuning (SPT) スキーム。
SPTはタスク固有の重要な位置にトレーニング可能なパラメータを割り当てる。
ダウンストリーム認識タスクの幅広い実験により,SPTは既存のPEFT法と相補的であることが示された。
論文 参考訳(メタデータ) (2023-03-15T12:34:24Z) - Scaling & Shifting Your Features: A New Baseline for Efficient Model
Tuning [126.84770886628833]
既存の微調整法は、事前訓練されたモデルの全てのパラメータ(フル微調整)をチューニングするか、最後の線形層(線形プローブ)のみをチューニングする。
そこで本研究では,SSFと呼ばれるパラメータ効率の高いファインタニング手法を提案する。
論文 参考訳(メタデータ) (2022-10-17T08:14:49Z) - LoRA: Low-Rank Adaptation of Large Language Models [71.75808607987281]
Low-Rank Adaptation (LoRA)はトレーニング済みモデルの重みを凍結し、トレーニング可能な階数分解をTransformerアーキテクチャの各層に注入する。
GPT-3では、LoRAはトレーニング可能なパラメータの数を1万倍に減らし、計算ハードウェアの要求をフル微調整の3倍に削減できる。
論文 参考訳(メタデータ) (2021-06-17T17:37:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。