Fugu-MT 論文翻訳(概要): Preserving Pre-trained Representation Space: On Effectiveness of Prefix-tuning for Large Multi-modal Models

論文の概要: Preserving Pre-trained Representation Space: On Effectiveness of Prefix-tuning for Large Multi-modal Models

arxiv url: http://arxiv.org/abs/2411.00029v1
Date: Tue, 29 Oct 2024 07:55:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:43.01303
Title: Preserving Pre-trained Representation Space: On Effectiveness of Prefix-tuning for Large Multi-modal Models
Title（参考訳）: 事前学習表現空間の保存:大規模マルチモーダルモデルに対するプレフィックスチューニングの有効性について
Authors: Donghoon Kim, Gusang Lee, Kyuhong Shim, Byonghyo Shim,
Abstract要約: 大規模マルチモーダルモデル(LMM)は、機械が世界と対話する方法に革命をもたらしている。下流タスクにLMMを適用するために,パラメータ効率細調整(PEFT)が普及している。本稿では,各チューニング戦略の長所と短所に着目し,これらのアプローチに典型的な効率性から焦点を移す。
参考スコア（独自算出の注目度）: 24.62337386603331
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently, we have observed that Large Multi-modal Models (LMMs) are revolutionizing the way machines interact with the world, unlocking new possibilities across various multi-modal applications. To adapt LMMs for downstream tasks, parameter-efficient fine-tuning (PEFT) which only trains additional prefix tokens or modules, has gained popularity. Nevertheless, there has been little analysis of how PEFT works in LMMs. In this paper, we delve into the strengths and weaknesses of each tuning strategy, shifting the focus from the efficiency typically associated with these approaches. We first discover that model parameter tuning methods such as LoRA and Adapters distort the feature representation space learned during pre-training and limit the full utilization of pre-trained knowledge. We also demonstrate that prefix-tuning excels at preserving the representation space, despite its lower performance on downstream tasks. These findings suggest a simple two-step PEFT strategy called Prefix-Tuned PEFT (PT-PEFT), which successively performs prefix-tuning and then PEFT (i.e., Adapter, LoRA), combines the benefits of both. Experimental results show that PT-PEFT not only improves performance in image captioning and visual question answering compared to vanilla PEFT methods but also helps preserve the representation space of the four pre-trained models.
Abstract（参考訳）: 近年,LMM(Large Multi-modal Models)は機械が世界と対話する方法に革命をもたらし,様々なマルチモーダルアプリケーションにまたがる新たな可能性の解放を図っている。下流タスクにLMMを適用するために、追加のプレフィックストークンやモジュールのみを訓練するパラメータ効率の微調整(PEFT)が人気を集めている。それでも、PEFTがLMMでどのように機能するかは、ほとんど分析されていない。本稿では,各チューニング戦略の長所と短所を掘り下げ,これらのアプローチに典型的な効率性から焦点を移す。まず,LoRAやAdaptersなどのモデルパラメータチューニング手法は,事前学習中に学習した特徴表現空間を歪曲し,事前学習した知識の完全活用を制限する。また、下流タスクの性能が低いにもかかわらず、プレフィックスチューニングは表現空間を保存するのに優れていることを示す。これらの結果は,プレフィックスチューニングPEFT(PT-PEFT)と呼ばれる単純な2段階のPEFT戦略が,プレフィックスチューニングとPEFT(Adapter, LoRA)の両方の利点を組み合わせたものであることを示唆している。実験の結果,PT-PEFTは,バニラPEFT法と比較して画像キャプションや視覚的質問応答の性能を向上させるだけでなく,事前学習した4つのモデルの表現空間の維持にも有効であることがわかった。

関連論文リスト

ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文参考訳（メタデータ） (2024-12-11T12:31:30Z)
Layer-wise Importance Matters: Less Memory for Better Performance in Parameter-efficient Fine-tuning of Large Language Models [19.163639128631534]
Importance-Aware Sparse Tuning (IST) は、様々なPEFTメソッドと互換性があり、層ごとに動作する。 ISTはPEFTモジュールで選択したレイヤを動的に更新し、メモリ要求を減らした。
論文参考訳（メタデータ） (2024-10-15T16:53:26Z)
Forecast-PEFT: Parameter-Efficient Fine-Tuning for Pre-trained Motion Forecasting Models [68.23649978697027]
Forecast-PEFTは、モデルのパラメータの大部分を凍結し、新しく導入されたプロンプトとアダプタの調整に集中する微調整戦略である。実験の結果,Forecast-PEFTは動作予測タスクにおいて従来のフルチューニング手法よりも優れていた。 Forecast-FTは予測性能をさらに改善し、従来のベースライン法よりも最大9.6%向上した。
論文参考訳（メタデータ） (2024-07-28T19:18:59Z)
Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。 DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文参考訳（メタデータ） (2024-03-18T14:05:52Z)
LoRETTA: Low-Rank Economic Tensor-Train Adaptation for Ultra-Low-Parameter Fine-Tuning of Large Language Models [20.5908375260123]
モデル性能を維持しながら計算効率のよい微調整を実現するために,様々なパラメータ効率の微調整技術が提案されている。テンソル-トレイン分解によりトレーニング可能なパラメータを大幅に削減するフレームワークであるLoRETTAを提案する。 LoRETTAは、LLaMA-2-7Bモデルで最大100倍のパラメータで、最も広く使われているPEFT法よりも同等または優れた性能を実現している。
論文参考訳（メタデータ） (2024-02-18T01:20:00Z)
Context-PEFT: Efficient Multi-Modal, Multi-Task Fine-Tuning [12.648711621637663]
この論文は小説を紹介します。 COCO-Efficient Fine-Tuning (PEFT) framework for multi-modal, multi-task transfer learning with pre-trained language model。トークンのドメインに基づいて異なる適応パラメータ群を学習するContext-PEFTを提案する。提案手法はキャプションタスクで評価され、類似したデータ制約下での完全な微調整よりも優れる。
論文参考訳（メタデータ） (2023-12-14T13:00:24Z)
DePT: Decomposed Prompt Tuning for Parameter-Efficient Fine-tuning [14.975436239088312]
ソフトプロンプトを短いソフトプロンプトと2つの異なる学習率で最適化された低ランク行列に分解するDePTを提案する。 DePTは、いくつかのシナリオにおいて、完全な微調整ベースラインを含む最先端のPEFTアプローチよりも優れていることを示す。
論文参考訳（メタデータ） (2023-09-11T00:02:05Z)
Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文参考訳（メタデータ） (2023-06-27T05:43:47Z)
Strong Baselines for Parameter Efficient Few-Shot Fine-tuning [50.83426196335385]
FSC (Few-shot Classification) は、事前訓練(メタトレーニング)フェーズの後にクラス毎にいくつかの例を与えられた新しいクラスを学習する。近年の研究では、新しいテストクラスで事前訓練された視覚変換器(ViT)を微調整することが、FSCにとって強力なアプローチであることが示されている。しかし、微調整のViTは、時間、計算、ストレージに費用がかかる。これにより、Transformerのパラメータのごく一部だけを微調整するPEFT法が考案された。
論文参考訳（メタデータ） (2023-04-04T16:14:39Z)
FPT: Improving Prompt Tuning Efficiency via Progressive Training [84.25195519945215]
本稿では,即時チューニングの訓練効率を向上させるために,Fast Prompt Tuningを提案する。我々は、FPTが30%以上のトレーニング計算を節約し、同等のパフォーマンスを実現することを示した。
論文参考訳（メタデータ） (2022-11-13T08:00:29Z)
Towards a Unified View on Visual Parameter-Efficient Transfer Learning [96.99924127527002]
本稿では,視覚PETL(visual-PETL)と呼ばれる統一的な視点を持つフレームワークを提案し,トレードオフに影響を与えるさまざまな側面について検討する。提案したV-PETLフレームワークから派生したSwin-BAPATは、最先端のAdaptFormer-Swinよりも大幅に性能が向上する。
論文参考訳（メタデータ） (2022-10-03T09:54:39Z)
When does Parameter-Efficient Transfer Learning Work for Machine Translation? [8.862707047517913]
以前の研究は、PEFTは機械翻訳(MT)ではうまく機能しないことを示している。我々は,(1)パラメータ予算,(2)言語ペアの多種多様なセット,(3)事前学習モデルを考慮した,MT用PEFTの総合的な実証的研究を行った。事前学習モデルが大きいPEFTを用いて、より小さなモデルで完全な微調整を行うことができ、訓練データサイズが小さい場合には、同じ事前学習モデルで完全な微調整を行う。
論文参考訳（メタデータ） (2022-05-23T12:49:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。