論文の概要: MePT: Multi-Representation Guided Prompt Tuning for Vision-Language Model
- arxiv url: http://arxiv.org/abs/2408.09706v1
- Date: Mon, 19 Aug 2024 05:42:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 17:34:18.822568
- Title: MePT: Multi-Representation Guided Prompt Tuning for Vision-Language Model
- Title(参考訳): MePT:視覚言語モデルのためのマルチ表現ガイド型プロンプトチューニング
- Authors: Xinyang Wang, Yi Yang, Minfeng Zhu, Kecheng Zheng, Shi Liu, Wei Chen,
- Abstract要約: マルチ表現ガイド型プロンプトチューニング(MePT)について紹介する。
MePTは、多種多様な有能な領域に焦点を当てた3分岐フレームワークを採用し、堅牢な一般化に欠かせない画像内の固有の知識を明らかにする。
我々は,MePTの有効性を広範囲な実験により検証し,ベース・ツー・ノーベル・クラス予測とドメイン一般化タスクの両方において有意な改善が示された。
- 参考スコア(独自算出の注目度): 29.181270326129553
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in pre-trained Vision-Language Models (VLMs) have highlighted the significant potential of prompt tuning for adapting these models to a wide range of downstream tasks. However, existing prompt tuning methods typically map an image to a single representation, limiting the model's ability to capture the diverse ways an image can be described. To address this limitation, we investigate the impact of visual prompts on the model's generalization capability and introduce a novel method termed Multi-Representation Guided Prompt Tuning (MePT). Specifically, MePT employs a three-branch framework that focuses on diverse salient regions, uncovering the inherent knowledge within images which is crucial for robust generalization. Further, we employ efficient self-ensemble techniques to integrate these versatile image representations, allowing MePT to learn all conditional, marginal, and fine-grained distributions effectively. We validate the effectiveness of MePT through extensive experiments, demonstrating significant improvements on both base-to-novel class prediction and domain generalization tasks.
- Abstract(参考訳): 近年のVLM(Pre-trained Vision-Language Models)の進歩は、これらのモデルを広範囲の下流タスクに適用するための迅速なチューニングの可能性を強調している。
しかしながら、既存のプロンプトチューニング手法は、通常、イメージを単一の表現にマッピングする。
この制限に対処するために、モデルの一般化能力に対する視覚的プロンプトの影響を調査し、Multi-Representation Guided Prompt Tuning (MePT)と呼ばれる新しい手法を導入する。
特に、MePTは、多種多様な有能な領域に焦点を当てた3分岐フレームワークを採用し、堅牢な一般化に欠かせない画像内の固有の知識を明らかにする。
さらに、これらの多目的画像表現を統合するために効率的な自己アンサンブル技術を用いて、MePTが全ての条件、限界、きめ細かな分布を効果的に学習できるようにする。
我々は,MePTの有効性を広範囲な実験により検証し,ベース・ツー・ノーベル・クラス予測とドメイン一般化タスクの両方において有意な改善が示された。
関連論文リスト
- M$^2$PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning [90.75075886543404]
MLLM(Multimodal Large Language Models)は、幅広い領域にわたる顕著なパフォーマンスを示す。
本研究では,MLLMの効率的な命令チューニングのための新しいMultimodal Prompt Tuning (M$2$PT) 手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T01:40:24Z) - Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining [48.98105914356609]
ルミナ-mGPT (Lumina-mGPT) は、様々な視覚と言語を扱える多モード自動回帰モデルのファミリーである。
我々は,Ominiponent Supervised Finetuningを導入し,Lumina-mGPTを全能タスク統一をシームレスに達成する基礎モデルに変換する。
論文 参考訳(メタデータ) (2024-08-05T17:46:53Z) - FLIP: Cross-domain Face Anti-spoofing with Language Guidance [19.957293190322332]
Face Anti-Spoofing (FAS) またはプレゼンテーションアタック検出は、顔認識システムにおいて不可欠な要素である。
最近の視覚変換器(ViT)モデルはFASタスクに有効であることが示されている。
本稿では、自然言語の助けを借りて視覚表現を基盤とした、堅牢なドメイン間FASのための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-28T17:53:20Z) - MuDPT: Multi-modal Deep-symphysis Prompt Tuning for Large Pre-trained Vision-Language Models [12.397136690734865]
マルチモーダル・ディープ・サイコフィック・プロンプト・タニングと呼ばれる新しいアプローチを提案し,その手法を MuDPT と呼ぶ。
MuDPTは、モデルに依存しない変換ネットワークを学習し、深い階層的な双方向のプロンプト融合を可能にすることで、独立したマルチモーダル・プロンプトチューニングを拡張している。
最先端の手法と比較すると, MuDPT は認識能力と一般化能力が向上し, マージンは明らかである。
論文 参考訳(メタデータ) (2023-06-20T09:15:52Z) - GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception
Tasks? [51.22096780511165]
本稿では,大規模な事前学習モデルから抽出した知識を利用して,CNN や ViT などのモデルが拡張表現を学習するのを支援する新しい学習パラダイムを提案する。
我々は、詳細な記述を事前訓練されたエンコーダに入力し、画像の内容をエンコードするリッチなセマンティック情報でテキスト埋め込みを抽出する。
論文 参考訳(メタデータ) (2023-06-01T14:02:45Z) - Instruction-ViT: Multi-Modal Prompts for Instruction Learning in ViT [58.70209492842953]
本稿では、画像分類のための視覚変換器モデルに命令調律に基づく即時設計を適用することに焦点を当てる。
鍵となる考え方は、カテゴリ情報に関連するマルチモーダルプロンプトを実装し、モデルの微調整を導くことである。
いくつかの画像キャプションタスクの実験に基づいて、性能とドメイン適応性を改善した。
論文 参考訳(メタデータ) (2023-04-29T08:59:12Z) - Pre-Trained Image Processing Transformer [95.93031793337613]
我々は、新しい事前学習モデル、すなわち、画像処理変換器(IPT)を開発する。
本稿では、よく知られたImageNetベンチマークを用いて、大量の画像ペアを生成する。
IPTモデルは、これらの画像をマルチヘッドとマルチテールでトレーニングする。
論文 参考訳(メタデータ) (2020-12-01T09:42:46Z) - Flexible Example-based Image Enhancement with Task Adaptive Global
Feature Self-Guided Network [162.14579019053804]
我々は,1つの拡張写像の学習において,我々のモデルが現在の技術状況より優れていることを示す。
このモデルは、複数のマッピングを同時に学習する上で、さらに高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-05-13T22:45:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。