論文の概要: Mode Approximation Makes Good Vision-Language Prompts
- arxiv url: http://arxiv.org/abs/2305.08381v1
- Date: Mon, 15 May 2023 06:40:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 15:49:54.731361
- Title: Mode Approximation Makes Good Vision-Language Prompts
- Title(参考訳): 視覚言語プロンプトに適したモード近似
- Authors: Haixin Wang, Xinlong Yang, Jianlong Chang, Dian Jin, Jinan Sun, Shikun
Zhang, Xiao Luo, Qi Tian
- Abstract要約: 我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。
既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いてトレーニング可能なパラメータをほとんど生成する。
6つのクロスモーダルな下流ベンチマークにおけるオーロラの徹底的な評価は、最先端のベンチマークよりも優れているだけでなく、完全な微調整アプローチよりも優れていることを示している。
- 参考スコア(独自算出の注目度): 73.70835532810025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the advance of large-scale model technologies, parameter-efficient
transfer learning (PETL) has swept across various fields of Artificial
Intelligence. Its core idea is to adapt the model to downstream tasks using
only a small number of parameters. Recently, some studies have applied these
techniques proven effective to multimodal tasks. However, two critical issues
remain unresolved: how to further reduce the complexity with lightweight design
and how to boost alignment between modalities under extremely low parameters.
In this paper, we propose A graceful prompt framework for cross-modal transfer
(Aurora) to overcome these challenges. Considering the redundancy in existing
architectures, we first utilize the mode approximation to generate few
trainable parameters to implement the multi-modal prompt tuning, which explores
the low intrinsic dimension with only 0.05% parameters of the pre-trained
model. Then, to better narrow the modality gap, we propose the informative
context enhancement and gated query transformation modules under extremely few
parameters scenes. A thorough evaluation of the Aurora on six cross-modal
downstream benchmarks shows that it not only outperforms the state-of-the-art,
but even outperforms the full fine-tuning approach. Our code is available at:
https://github.com/WillDreamer/Aurora.
- Abstract(参考訳): 大規模モデル技術の進歩により、パラメータ効率変換学習(PETL)は人工知能の様々な分野に浸透した。
その中核となる考え方は、少数のパラメータだけで下流タスクにモデルを適応させることである。
近年,これらの手法がマルチモーダルタスクに有効であることが証明されている研究もある。
しかし、2つの重要な問題は未解決のままである: 軽量設計の複雑さをさらに減らす方法と、非常に低いパラメータの下でのモード間のアライメントを強化する方法である。
本稿では,これらの課題を克服するために,クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。
既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて、事前訓練されたモデルの0.05%のパラメータしか持たない低内在次元を探索するマルチモーダルプロンプトチューニングを実装する。
そこで,モーダリティのギャップを狭めるために,極めて少ないパラメータシーン下で,情報的コンテキスト拡張とゲート型クエリ変換モジュールを提案する。
6つのクロスモーダルダウンストリームベンチマークにおけるオーロラの徹底的な評価は、それが最先端を上回っているだけでなく、完全な微調整アプローチを上回っていることを示している。
私たちのコードは、https://github.com/WillDreamer/Aurora.comで利用可能です。
関連論文リスト
- FineGates: LLMs Finetuning with Compression using Stochastic Gates [7.093692674858257]
大規模言語モデル(LLM)は、高い計算要求のため、完全な微調整に重大な課題をもたらす。
低ランクのアダプタ層を学習するなど、軽量なファインタニング技術が提案されている。
本稿では,フリーズベースモデルとタスク固有適応を同時に分散するゲートに基づくアダプタモデルを提案する。
論文 参考訳(メタデータ) (2024-12-17T14:33:05Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Efficient Remote Sensing with Harmonized Transfer Learning and Modality Alignment [0.0]
ハーモナイズドトランスファーラーニングとモダリティアライメント(HarMA)は,タスク制約,モダリティアライメント,単一モダリティアライメントを同時に満足する手法である。
HarMAはリモートセンシング分野における2つの一般的なマルチモーダル検索タスクにおいて最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-04-28T17:20:08Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - TIES-Merging: Resolving Interference When Merging Models [95.59265307318752]
転送学習は、ダウンストリーム性能の改善、収束の高速化、サンプル効率の向上など、大きな利点をもたらす可能性がある。
モデルマージは、追加のトレーニングを行うことなく、複数のタスク固有のモデルを単一のモデルに組み合わせるソリューションとして登場した。
既存のマージ手法は、しばしば異なるモデルのパラメータ間の干渉を無視し、複数のモデルのマージ時に大きなパフォーマンス低下を引き起こす。
本稿では,モデル統合における新たな3つのステップとして,微調整時に少量だけ変化したパラメータをリセットし,符号衝突を解消し,最終的な一致した符号に一致したパラメータのみをマージするTIES-Mergingを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:31:32Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - High-Dimensional Bayesian Optimization with Multi-Task Learning for
RocksDB [0.0]
RocksDBは汎用の組み込みキーバリューストアです。
本論文では、10パラメータの自動チューニングによるRocksDB IOオペレーションのスループットの最大化について検討する。
論文 参考訳(メタデータ) (2021-03-30T11:38:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。