論文の概要: Parameter-efficient Tuning of Large-scale Multimodal Foundation Model
- arxiv url: http://arxiv.org/abs/2305.08381v3
- Date: Sat, 28 Oct 2023 13:17:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 22:41:39.374368
- Title: Parameter-efficient Tuning of Large-scale Multimodal Foundation Model
- Title(参考訳): 大規模マルチモーダル基礎モデルのパラメータ効率チューニング
- Authors: Haixin Wang, Xinlong Yang, Jianlong Chang, Dian Jin, Jinan Sun, Shikun
Zhang, Xiao Luo, Qi Tian
- Abstract要約: 我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。
既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。
6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
- 参考スコア(独自算出の注目度): 68.24510810095802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Driven by the progress of large-scale pre-training, parameter-efficient
transfer learning has gained immense popularity across different subfields of
Artificial Intelligence. The core is to adapt the model to downstream tasks
with only a small set of parameters. Recently, researchers have leveraged such
proven techniques in multimodal tasks and achieve promising results. However,
two critical issues remain unresolved: how to further reduce the complexity
with lightweight design and how to boost alignment between modalities under
extremely low parameters. In this paper, we propose A graceful prompt framework
for cross-modal transfer (Aurora) to overcome these challenges. Considering the
redundancy in existing architectures, we first utilize the mode approximation
to generate 0.1M trainable parameters to implement the multimodal prompt
tuning, which explores the low intrinsic dimension with only 0.04% parameters
of the pre-trained model. Then, for better modality alignment, we propose the
Informative Context Enhancement and Gated Query Transformation module under
extremely few parameters scenes. A thorough evaluation on six cross-modal
benchmarks shows that it not only outperforms the state-of-the-art but even
outperforms the full fine-tuning approach. Our code is available at:
https://github.com/WillDreamer/Aurora.
- Abstract(参考訳): 大規模事前学習の進展により、パラメーター効率の高い転送学習は、さまざまな人工知能サブフィールドで大きな人気を集めている。
コアとなるのは、小さなパラメータセットだけで下流タスクにモデルを適応させることである。
近年,このような手法をマルチモーダルタスクに活用し,有望な結果を得た。
しかし、2つの重要な問題は未解決のままである: 軽量設計の複雑さをさらに減らす方法と、非常に低いパラメータの下でのモード間のアライメントを強化する方法である。
本稿では,これらの課題を克服するために,クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。
既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1mのトレーニング可能なパラメータを生成し、事前学習モデルの0.04%のパラメータしか持たない低固有次元を探索するマルチモーダルプロンプトチューニングを実装する。
そこで本研究では,非常に少ないパラメータシーン下でのInformative Context Enhancement and Gated Query Transformationモジュールを提案する。
6つのクロスモーダルベンチマークの徹底的な評価は、最先端だけでなく、完全な微調整アプローチよりも優れていることを示している。
私たちのコードは、https://github.com/WillDreamer/Aurora.comで利用可能です。
関連論文リスト
- Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Efficient Remote Sensing with Harmonized Transfer Learning and Modality Alignment [0.0]
ハーモナイズドトランスファーラーニングとモダリティアライメント(HarMA)は,タスク制約,モダリティアライメント,単一モダリティアライメントを同時に満足する手法である。
HarMAはリモートセンシング分野における2つの一般的なマルチモーダル検索タスクにおいて最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-04-28T17:20:08Z) - Prototype-based HyperAdapter for Sample-Efficient Multi-task Tuning [30.251155072822055]
Prototype-based HyperAdapter (PHA)は、アダプタチューニングとハイパーネットワーク上に構築された新しいフレームワークである。
サンプル効率のよい条件付きモジュールを生成するために、インスタンスdenseレトリバーとプロトタイプのハイパーネットワークを導入する。
PHAは、トレーニング可能なパラメータ、ストリームタスクの精度、サンプル効率のトレードオフをより良くすることを示す。
論文 参考訳(メタデータ) (2023-10-18T02:42:17Z) - Prompt Guided Transformer for Multi-Task Dense Prediction [14.815576352301322]
本稿では,Prompt Guided Transformerと呼ばれる軽量なタスク条件モデルを導入し,性能とモデルパラメータを最適化する。
提案手法は,タスク条件のパラメータを少なくしながら,タスク条件付き手法の最先端化を実現し,性能とパラメータサイズの間に大きなバランスを保っている。
論文 参考訳(メタデータ) (2023-07-28T07:25:57Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - TIES-Merging: Resolving Interference When Merging Models [95.59265307318752]
転送学習は、ダウンストリーム性能の改善、収束の高速化、サンプル効率の向上など、大きな利点をもたらす可能性がある。
モデルマージは、追加のトレーニングを行うことなく、複数のタスク固有のモデルを単一のモデルに組み合わせるソリューションとして登場した。
既存のマージ手法は、しばしば異なるモデルのパラメータ間の干渉を無視し、複数のモデルのマージ時に大きなパフォーマンス低下を引き起こす。
本稿では,モデル統合における新たな3つのステップとして,微調整時に少量だけ変化したパラメータをリセットし,符号衝突を解消し,最終的な一致した符号に一致したパラメータのみをマージするTIES-Mergingを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:31:32Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - High-Dimensional Bayesian Optimization with Multi-Task Learning for
RocksDB [0.0]
RocksDBは汎用の組み込みキーバリューストアです。
本論文では、10パラメータの自動チューニングによるRocksDB IOオペレーションのスループットの最大化について検討する。
論文 参考訳(メタデータ) (2021-03-30T11:38:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。