論文の概要: Mode Approximation Makes Good Vision-Language Prompts
- arxiv url: http://arxiv.org/abs/2305.08381v1
- Date: Mon, 15 May 2023 06:40:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 15:49:54.731361
- Title: Mode Approximation Makes Good Vision-Language Prompts
- Title(参考訳): 視覚言語プロンプトに適したモード近似
- Authors: Haixin Wang, Xinlong Yang, Jianlong Chang, Dian Jin, Jinan Sun, Shikun
Zhang, Xiao Luo, Qi Tian
- Abstract要約: 我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。
既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いてトレーニング可能なパラメータをほとんど生成する。
6つのクロスモーダルな下流ベンチマークにおけるオーロラの徹底的な評価は、最先端のベンチマークよりも優れているだけでなく、完全な微調整アプローチよりも優れていることを示している。
- 参考スコア(独自算出の注目度): 73.70835532810025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the advance of large-scale model technologies, parameter-efficient
transfer learning (PETL) has swept across various fields of Artificial
Intelligence. Its core idea is to adapt the model to downstream tasks using
only a small number of parameters. Recently, some studies have applied these
techniques proven effective to multimodal tasks. However, two critical issues
remain unresolved: how to further reduce the complexity with lightweight design
and how to boost alignment between modalities under extremely low parameters.
In this paper, we propose A graceful prompt framework for cross-modal transfer
(Aurora) to overcome these challenges. Considering the redundancy in existing
architectures, we first utilize the mode approximation to generate few
trainable parameters to implement the multi-modal prompt tuning, which explores
the low intrinsic dimension with only 0.05% parameters of the pre-trained
model. Then, to better narrow the modality gap, we propose the informative
context enhancement and gated query transformation modules under extremely few
parameters scenes. A thorough evaluation of the Aurora on six cross-modal
downstream benchmarks shows that it not only outperforms the state-of-the-art,
but even outperforms the full fine-tuning approach. Our code is available at:
https://github.com/WillDreamer/Aurora.
- Abstract(参考訳): 大規模モデル技術の進歩により、パラメータ効率変換学習(PETL)は人工知能の様々な分野に浸透した。
その中核となる考え方は、少数のパラメータだけで下流タスクにモデルを適応させることである。
近年,これらの手法がマルチモーダルタスクに有効であることが証明されている研究もある。
しかし、2つの重要な問題は未解決のままである: 軽量設計の複雑さをさらに減らす方法と、非常に低いパラメータの下でのモード間のアライメントを強化する方法である。
本稿では,これらの課題を克服するために,クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。
既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて、事前訓練されたモデルの0.05%のパラメータしか持たない低内在次元を探索するマルチモーダルプロンプトチューニングを実装する。
そこで,モーダリティのギャップを狭めるために,極めて少ないパラメータシーン下で,情報的コンテキスト拡張とゲート型クエリ変換モジュールを提案する。
6つのクロスモーダルダウンストリームベンチマークにおけるオーロラの徹底的な評価は、それが最先端を上回っているだけでなく、完全な微調整アプローチを上回っていることを示している。
私たちのコードは、https://github.com/WillDreamer/Aurora.comで利用可能です。
関連論文リスト
- Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Efficient Remote Sensing with Harmonized Transfer Learning and Modality Alignment [0.0]
ハーモナイズドトランスファーラーニングとモダリティアライメント(HarMA)は,タスク制約,モダリティアライメント,単一モダリティアライメントを同時に満足する手法である。
HarMAはリモートセンシング分野における2つの一般的なマルチモーダル検索タスクにおいて最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-04-28T17:20:08Z) - Prototype-based HyperAdapter for Sample-Efficient Multi-task Tuning [30.251155072822055]
Prototype-based HyperAdapter (PHA)は、アダプタチューニングとハイパーネットワーク上に構築された新しいフレームワークである。
サンプル効率のよい条件付きモジュールを生成するために、インスタンスdenseレトリバーとプロトタイプのハイパーネットワークを導入する。
PHAは、トレーニング可能なパラメータ、ストリームタスクの精度、サンプル効率のトレードオフをより良くすることを示す。
論文 参考訳(メタデータ) (2023-10-18T02:42:17Z) - Prompt Guided Transformer for Multi-Task Dense Prediction [14.815576352301322]
本稿では,Prompt Guided Transformerと呼ばれる軽量なタスク条件モデルを導入し,性能とモデルパラメータを最適化する。
提案手法は,タスク条件のパラメータを少なくしながら,タスク条件付き手法の最先端化を実現し,性能とパラメータサイズの間に大きなバランスを保っている。
論文 参考訳(メタデータ) (2023-07-28T07:25:57Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - TIES-Merging: Resolving Interference When Merging Models [95.59265307318752]
転送学習は、ダウンストリーム性能の改善、収束の高速化、サンプル効率の向上など、大きな利点をもたらす可能性がある。
モデルマージは、追加のトレーニングを行うことなく、複数のタスク固有のモデルを単一のモデルに組み合わせるソリューションとして登場した。
既存のマージ手法は、しばしば異なるモデルのパラメータ間の干渉を無視し、複数のモデルのマージ時に大きなパフォーマンス低下を引き起こす。
本稿では,モデル統合における新たな3つのステップとして,微調整時に少量だけ変化したパラメータをリセットし,符号衝突を解消し,最終的な一致した符号に一致したパラメータのみをマージするTIES-Mergingを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:31:32Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - High-Dimensional Bayesian Optimization with Multi-Task Learning for
RocksDB [0.0]
RocksDBは汎用の組み込みキーバリューストアです。
本論文では、10パラメータの自動チューニングによるRocksDB IOオペレーションのスループットの最大化について検討する。
論文 参考訳(メタデータ) (2021-03-30T11:38:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。