論文の概要: Declaration-based Prompt Tuning for Visual Question Answering
- arxiv url: http://arxiv.org/abs/2205.02456v1
- Date: Thu, 5 May 2022 05:56:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-06 14:26:21.422610
- Title: Declaration-based Prompt Tuning for Visual Question Answering
- Title(参考訳): 視覚質問応答のための宣言型プロンプトチューニング
- Authors: Yuhang Liu, Wei Wei, Daowan Peng and Feida Zhu
- Abstract要約: 本稿では,DPT(Declaation-based Prompt Tuning)と呼ばれる,革新的なビジュアル言語(VL)ファインチューニングパラダイムを提案する。
DPTは、VQAモデルの事前学習と微調整の目的を共同で最適化し、事前学習されたVLモデルの下流タスクへの効果的な適応を促進する。
GQAデータセットの実験結果によると、DPTは完全な教師付き(2.68%)とゼロショット/フェーショット(31%以上)の両方で精度に大きな差で微調整されたデータセットよりも優れていた。
- 参考スコア(独自算出の注目度): 16.688288454811016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, the pre-training-then-fine-tuning paradigm has yielded
immense success on a wide spectrum of cross-modal tasks, such as visual
question answering (VQA), in which a visual-language (VL) model is first
optimized via self-supervised task objectives, e.g., masked language modeling
(MLM) and image-text matching (ITM), and then fine-tuned to adapt to downstream
task (e.g., VQA) via a brand-new objective function, e.g., answer prediction.
The inconsistency of the objective forms not only severely limits the
generalization of pre-trained VL models to downstream tasks, but also requires
a large amount of labeled data for fine-tuning. To alleviate the problem, we
propose an innovative VL fine-tuning paradigm (named Declaration-based Prompt
Tuning, abbreviated as DPT), which jointly optimizes the objectives of
pre-training and fine-tuning of VQA model, boosting the effective adaptation of
pre-trained VL models to the downstream task. Specifically, DPT reformulates
the objective form of VQA task via (1) textual adaptation, which converts the
given questions into declarative sentence-form for prompt-tuning, and (2) task
adaptation, which optimizes the objective function of VQA problem in the manner
of pre-training phase. Experimental results on GQA dataset show that DPT
outperforms the fine-tuned counterpart by a large margin regarding accuracy in
both fully-supervised (2.68%) and zero-shot/few-shot (over 31%) settings. All
the data and codes will be available to facilitate future research.
- Abstract(参考訳): 近年では、視覚的質問応答(VQA)、視覚言語(VL)モデルが自己教師型タスク目的(例えば、マスク言語モデリング(MLM)と画像テキストマッチング(ITM)によって最初に最適化され、新しい目的関数(例えば、VQA)を介して下流タスク(例えば、VQA)に適応するように微調整されるなど、多岐にわたるクロスモーダルタスクにおいて大きな成功を収めている。
目的形式の不整合は、事前訓練されたVLモデルの下流タスクへの一般化を著しく制限するだけでなく、微調整のために大量のラベル付きデータを必要とする。
そこで本研究では,VQAモデルの事前学習と微調整の目的を協調的に最適化し,事前学習したVLモデルを下流タスクに効果的に適用する,革新的なVLファインチューニングパラダイム(宣言ベースのPrompt Tuning,略称DPT)を提案する。
具体的には、(1)テキスト適応によりVQAタスクの目的形式を再構成し、(2)事前学習フェーズでVQA問題の目的機能を最適化する宣言文形式に変換する。
GQAデータセットの実験結果によると、DPTは完全な教師付き(2.68%)とゼロショット/フェーショット(31%以上)の両方で精度に大きな差で微調整されたデータセットよりも優れている。
すべてのデータとコードは、将来の研究を促進するために利用可能になる。
関連論文リスト
- One VLM to Keep it Learning: Generation and Balancing for Data-free Continual Visual Question Answering [31.025439143093585]
VLM(Vision-Language Models)は、Webスケールのマルチモーダルデータセットを活用することで、VQA(Visual Question Answering)タスクにおいて大きな可能性を秘めている。
これらのモデルは、新しいタスクに適応する際に破滅的な忘れ物のために、継続的な学習に苦しむことが多い。
本稿では,外部モデルに頼るのではなく,VLMの言語生成能力を活用した最初のデータフリー手法を提案する。
論文 参考訳(メタデータ) (2024-11-04T16:04:59Z) - RAVEN: Multitask Retrieval Augmented Vision-Language Learning [5.1583788731239455]
世界中の知識をエンコードする大規模言語モデルのスケーリングは持続不可能であり、リソースバリアが悪化している。
Retrieval-Augmented Generation (RAG) は潜在的な解決策を示すが、その視覚言語モデル(VLM)への応用は検討中である。
本稿では,効率的なタスク特化微調整により,ベースVLMを強化した検索拡張VLMフレームワークであるRAVENを紹介する。
論文 参考訳(メタデータ) (2024-06-27T13:08:35Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Task Residual for Tuning Vision-Language Models [69.22958802711017]
タスク残差調整(TaskRes)と呼ばれる視覚言語モデル(VLM)のための新しい効率的なチューニング手法を提案する。
TaskResは、トレーニング済みモデルの事前知識とターゲットタスクに関する新たな知識を明示的に分離する。
提案されたTaskResは単純だが有効であり、11のベンチマークデータセットで以前のメソッドよりも大幅に上回っている。
論文 参考訳(メタデータ) (2022-11-18T15:09:03Z) - An Empirical Study of Training End-to-End Vision-and-Language
Transformers [50.23532518166621]
我々はMETER(textbfMultimodal textbfEnd-to-end textbfTransformtextbfER)を提案する。
具体的には、視覚エンコーダ(例えば、CLIP-ViT、Swin変換器)、テキストエンコーダ(例えば、RoBERTa、DeBERTa)、マルチモーダルフュージョン(例えば、マージアテンション対共振器)である。
論文 参考訳(メタデータ) (2021-11-03T17:55:36Z) - CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models [101.5066760592534]
我々は、視覚言語モデル(VL-PTM)をチューニングするための新しいパラダイムであるCPT(Cross-modal Prompt Tuning)を提案する。
CPTは、画像とテキストにおける色に基づく共参照マーカーを用いて、視覚的な接点をブランクの補間問題に修正し、ギャップを最大に軽減する。
総合的な実験結果から、VL-PTMの調整は、細調整されたVL-PTMよりも大きなマージンで優れていたことが示唆された。
論文 参考訳(メタデータ) (2021-09-24T08:07:29Z) - SimVLM: Simple Visual Language Model Pretraining with Weak Supervision [48.98275876458666]
SimVLM(Simple Visual Language Model)という,最小限の事前学習フレームワークを提案する。
SimVLMは、大規模な弱監視を活用することで、トレーニングの複雑さを低減する。
様々な識別的および生成的視覚言語ベンチマークにおいて、最先端の新たな結果が得られる。
論文 参考訳(メタデータ) (2021-08-24T18:14:00Z) - Contrast and Classify: Training Robust VQA Models [60.80627814762071]
本稿では,クロスエントロピーとコントラスト損失の両方を最適化する新しいトレーニングパラダイム(ConClaT)を提案する。
双方の損失を -- 交互に,あるいは共同で -- 最適化することが,効果的なトレーニングの鍵であることに気付きました。
論文 参考訳(メタデータ) (2020-10-13T00:23:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。