Fugu-MT 論文翻訳(概要): GIFT: Generative Interpretable Fine-Tuning Transformers

論文の概要: GIFT: Generative Interpretable Fine-Tuning Transformers

arxiv url: http://arxiv.org/abs/2312.00700v1
Date: Fri, 1 Dec 2023 16:33:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-04 14:01:54.823072
Title: GIFT: Generative Interpretable Fine-Tuning Transformers
Title（参考訳）: GIFT: 再生可能な微調整変換器
Authors: Chinmay Savadikar, Xi Song, Tianfu Wu
Abstract要約: 本稿では, GIFT (Generative Interpretable Fine-tuning Transformer) を用いて, 微調整事前学習型トランスモデルを提案する。我々のGIFTは深層パラメータ残差学習法であり、事前学習されたトランスフォーマーモデルを微調整する際の2つの問題に対処する。実験では,提案したGIFTをVTABベンチマークときめ細かい視覚分類ベンチマークで検証した。
参考スコア（独自算出の注目度）: 9.532589580200437
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present GIFT (Generative Interpretable Fine-tuning Transformers) for fine-tuning pretrained (often large) Transformer models at downstream tasks in a parameter-efficient way with built-in interpretability. Our GIFT is a deep parameter-residual learning method, which addresses two problems in fine-tuning a pretrained Transformer model: Where to apply the parameter-efficient fine-tuning (PEFT) to be extremely lightweight yet sufficiently expressive, and How to learn the PEFT to better exploit the knowledge of the pretrained model in a direct way? For the former, we select the final projection (linear) layer in the multi-head self-attention of a Transformer model, and verify its effectiveness. For the latter, in contrast to the prior art that directly introduce new model parameters (often in low-rank approximation form) to be learned in fine-tuning with downstream data, we propose a method for learning to generate the fine-tuning parameters. Our GIFT is a hyper-Transformer which take as input the pretrained parameters of the projection layer to generate its fine-tuning parameters using a proposed Parameter-to-Cluster Attention (PaCa). The PaCa results in a simple clustering-based forward explainer that plays the role of semantic segmentation in testing. In experiments, our proposed GIFT is tested on the VTAB benchmark and the fine-grained visual classification (FGVC) benchmark. It obtains significantly better performance than the prior art. Our code is available at https://github.com/savadikarc/gift
Abstract（参考訳）: 本稿では、下流タスクにおける微調整済み(しばしば大きな)トランスフォーマーモデルを、内蔵の解釈性を持つパラメータ効率の良い方法でGIFT(Generative Interpretable Fine-tuning Transformer)を提案する。我々は,事前学習したトランスフォーマーモデルの微調整における2つの問題に対処し,パラメータ効率の良い微調整(peft)を極端に軽量かつ十分に表現可能とする方法と,事前学習モデルの知識を直接的に活用するためにペフトを学習する方法を提案する。前者に対しては、トランスフォーマーモデルのマルチヘッド自己アテンションにおける最終的な投影(線形)層を選択し、その有効性を検証する。後者については,下流データとの微調整において学習される新しいモデルパラメータ(しばしば低ランク近似形)を直接導入する先行技術とは対照的に,微調整パラメータを生成するための学習方法を提案する。提案するパラメータ・ツー・クラスタ・アテンション(paca)を用いて,プロジェクション層の事前学習パラメータを入力し,微調整パラメータを生成するハイパートランスフォーマである。 PaCaは、テストにおいてセマンティックセグメンテーションの役割を担う単純なクラスタリングベースのフォワード説明器を提供する。実験では,提案したGIFTをVTABベンチマークとFGVCベンチマークで検証した。先行技術よりもかなり優れた性能を得る。私たちのコードはhttps://github.com/savadikarc/giftで利用可能です。

関連論文リスト

1LoRA: Summation Compression for Very Low-Rank Adaptation [6.00844864296448]
検討したPEFT法に対して, 線形層毎のパラメータの最小値を微調整する「極低階法」について検討した。本稿では, 計算, パラメータ, メモリ効率のよい微調整手法である1LoRAを提案する。
論文参考訳（メタデータ） (2025-03-11T11:45:20Z)
Hyper Compressed Fine-Tuning of Large Foundation Models with Quantum Inspired Adapters [0.0]
emphQuantum-Inspired Adaptersは、量子機械学習文学のハミング級量子回路にインスパイアされたPEFTアプローチである。提案するアダプタは,ベンチマークデータセットに大規模言語モデルと大規模視覚変換器を適用して検証する。
論文参考訳（メタデータ） (2025-02-10T13:06:56Z)
ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文参考訳（メタデータ） (2024-12-11T12:31:30Z)
LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、下流タスクのための大規模な事前学習モデルに効果的に適応する、PEFT (Efficient Fine Tuning) 手法として人気がある。モデル更新に低階テンソルパラメトリゼーションを用いる新しい手法を提案する。提案手法は,大規模言語モデルの微調整に有効であり,比較性能を維持しつつ,パラメータ数の大幅な削減を実現している。
論文参考訳（メタデータ） (2024-10-05T06:59:50Z)
SARA: Singular-Value Based Adaptive Low-Rank Adaption [4.135688713311511]
パラメータ効率のよい微細チューニング(PEFT)手法としてのLoRAは、推論オーバーヘッドを加算しないために広く用いられている。本研究ではまず,各層の性能とランクの関係をSVDを用いて解析する。これに基づいてSARA(Singular-Value Based Adaptive Low-Rank Adaption)を設計する。
論文参考訳（メタデータ） (2024-08-06T16:39:42Z)
Parameter-Efficient Fine-Tuning With Adapters [5.948206235442328]
本研究では,UniPELTフレームワークをベースとした新しい適応手法を提案する。提案手法では, ベースモデルパラメータの最小限の再学習を行うことなく, 事前学習したモデルを新しいタスクに効率的に転送できるアダプタを用いる。
論文参考訳（メタデータ） (2024-05-09T01:40:38Z)
Dynamic Adapter Meets Prompt Tuning: Parameter-Efficient Transfer Learning for Point Cloud Analysis [51.14136878142034]
ポイントクラウド分析は、事前訓練されたモデルのポイントクラウドの転送によって、優れたパフォーマンスを実現している。モデル適応のための既存の方法は通常、高い計算コストに依存するため、非効率な全てのモデルパラメータを更新する。本稿では,タスク性能とパラメータ効率のトレードオフを考慮した,ポイントクラウド解析のためのパラメータ効率変換学習を提案する。
論文参考訳（メタデータ） (2024-03-03T08:25:04Z)
MELoRA: Mini-Ensemble Low-Rank Adapters for Parameter-Efficient Fine-Tuning [71.50432879573614]
低ランク適応 (LoRA) は、適応過程が本質的に低次元であるという考えに基づいている。我々は、より高階を維持しながらトレーニング可能なパラメータを少なくするミニアンサンブルな低ランクアダプタMELoRAを提案する。実験結果から, 自然言語理解タスクの8倍のトレーニングパラメータ, 続くタスクの36倍のトレーニングパラメータが得られた。
論文参考訳（メタデータ） (2024-02-27T07:14:12Z)
Advancing Parameter Efficiency in Fine-tuning via Representation Editing [41.81020951061438]
我々はRepresentation EDiting (RED)というニューラルモデルのための新しい微調整手法を提案する。 REDは、スケーリングとバイアス処理の適用を通じて、いくつかのレイヤで生成された表現を修正します。注目すべきは、REDは完全なパラメータの微調整と他のPEFT手法に匹敵する、あるいは優れている結果を達成することである。
論文参考訳（メタデータ） (2024-02-23T08:21:02Z)
LoRETTA: Low-Rank Economic Tensor-Train Adaptation for Ultra-Low-Parameter Fine-Tuning of Large Language Models [20.5908375260123]
モデル性能を維持しながら計算効率のよい微調整を実現するために,様々なパラメータ効率の微調整技術が提案されている。テンソル-トレイン分解によりトレーニング可能なパラメータを大幅に削減するフレームワークであるLoRETTAを提案する。 LoRETTAは、LLaMA-2-7Bモデルで最大100倍のパラメータで、最も広く使われているPEFT法よりも同等または優れた性能を実現している。
論文参考訳（メタデータ） (2024-02-18T01:20:00Z)
Context-PEFT: Efficient Multi-Modal, Multi-Task Fine-Tuning [12.648711621637663]
この論文は小説を紹介します。 COCO-Efficient Fine-Tuning (PEFT) framework for multi-modal, multi-task transfer learning with pre-trained language model。トークンのドメインに基づいて異なる適応パラメータ群を学習するContext-PEFTを提案する。提案手法はキャプションタスクで評価され、類似したデータ制約下での完全な微調整よりも優れる。
論文参考訳（メタデータ） (2023-12-14T13:00:24Z)
Scaling Laws for Sparsely-Connected Foundation Models [70.41266138010657]
大規模データセット上でトレーニングしたトランスフォーマーのスケーリング挙動に及ぼすパラメータ空間の影響について検討する。重み空間,非ゼロパラメータ数,およびトレーニングデータの量との関係を記述した最初のスケーリング法則を同定する。
論文参考訳（メタデータ） (2023-09-15T16:29:27Z)
AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning [143.23123791557245]
下流タスクで訓練済みの大規模言語モデルを微調整することは、NLPにおいて重要なパラダイムとなっている。重み行列のパラメータ予算をその重要度に応じて適応的に割り当てるAdaLoRAを提案する。我々は,AdaLoRAの有効性を検証するために,自然言語処理,質問応答,自然言語生成に関する事前学習モデルを用いた広範囲な実験を行った。
論文参考訳（メタデータ） (2023-03-18T22:36:25Z)
Sensitivity-Aware Visual Parameter-Efficient Fine-Tuning [91.5113227694443]
私たちは新しいビジュアルを提案します。 Sensuous-Aware Fine-Tuning (SPT) スキーム。 SPTはタスク固有の重要な位置にトレーニング可能なパラメータを割り当てる。ダウンストリーム認識タスクの幅広い実験により,SPTは既存のPEFT法と相補的であることが示された。
論文参考訳（メタデータ） (2023-03-15T12:34:24Z)
Scaling & Shifting Your Features: A New Baseline for Efficient Model Tuning [126.84770886628833]
既存の微調整法は、事前訓練されたモデルの全てのパラメータ(フル微調整)をチューニングするか、最後の線形層(線形プローブ)のみをチューニングする。そこで本研究では,SSFと呼ばれるパラメータ効率の高いファインタニング手法を提案する。
論文参考訳（メタデータ） (2022-10-17T08:14:49Z)
Parameter-Efficient Sparsity for Large Language Models Fine-Tuning [63.321205487234074]
私たちはaを提案します。 Sparse- efficient Sparse Training (PST) は、スパース・アウェア・トレーニング中にトレーニング可能なパラメータの数を減少させる手法である。多様なネットワーク(BERT、RoBERTa、GPT-2)を用いた実験では、PSTは従来のスパーシリティ法よりも同等以上の性能を示した。
論文参考訳（メタデータ） (2022-05-23T02:43:45Z)
Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文参考訳（メタデータ） (2022-05-11T17:10:41Z)
LoRA: Low-Rank Adaptation of Large Language Models [71.75808607987281]
Low-Rank Adaptation (LoRA)はトレーニング済みモデルの重みを凍結し、トレーニング可能な階数分解をTransformerアーキテクチャの各層に注入する。 GPT-3では、LoRAはトレーニング可能なパラメータの数を1万倍に減らし、計算ハードウェアの要求をフル微調整の3倍に削減できる。
論文参考訳（メタデータ） (2021-06-17T17:37:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。