論文の概要: Context-Aware Prompt Tuning for Vision-Language Model with
Dual-Alignment
- arxiv url: http://arxiv.org/abs/2309.04158v1
- Date: Fri, 8 Sep 2023 06:51:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-11 15:42:27.838091
- Title: Context-Aware Prompt Tuning for Vision-Language Model with
Dual-Alignment
- Title(参考訳): デュアルリグメンテーションを用いた視覚言語モデルのための文脈認識型プロンプトチューニング
- Authors: Hongyu Hu, Tiancheng Lin, Jie Wang, Zhenbang Sun, Yi Xu
- Abstract要約: 我々は、事前学習された大言語モデル(LLM)を組み込むことで、視覚言語モデルの迅速な学習を改善する新しい手法を提案する。
DuAl-PTでは、明示的および暗黙的両方のコンテキストモデリングの恩恵を受けながら、よりコンテキスト対応のプロンプトを学習することを提案する。
実証的には、DuAl-PTは、数ショットの認識とベース・ツー・ニューな一般化で、11のダウンストリームデータセット上で優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 15.180715595425864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale vision-language models (VLMs), e.g., CLIP, learn broad visual
concepts from tedious training data, showing superb generalization ability.
Amount of prompt learning methods have been proposed to efficiently adapt the
VLMs to downstream tasks with only a few training samples. We introduce a novel
method to improve the prompt learning of vision-language models by
incorporating pre-trained large language models (LLMs), called Dual-Aligned
Prompt Tuning (DuAl-PT). Learnable prompts, like CoOp, implicitly model the
context through end-to-end training, which are difficult to control and
interpret. While explicit context descriptions generated by LLMs, like GPT-3,
can be directly used for zero-shot classification, such prompts are overly
relying on LLMs and still underexplored in few-shot domains. With DuAl-PT, we
propose to learn more context-aware prompts, benefiting from both explicit and
implicit context modeling. To achieve this, we introduce a pre-trained LLM to
generate context descriptions, and we encourage the prompts to learn from the
LLM's knowledge by alignment, as well as the alignment between prompts and
local image features. Empirically, DuAl-PT achieves superior performance on 11
downstream datasets on few-shot recognition and base-to-new generalization.
Hopefully, DuAl-PT can serve as a strong baseline. Code will be available.
- Abstract(参考訳): 大規模視覚言語モデル(VLM)、例えばCLIPは、退屈なトレーニングデータから幅広い視覚概念を学び、超一般化能力を示す。
数個のトレーニングサンプルだけで、VLMを下流タスクに効果的に適応させるための素早い学習法が多数提案されている。
本稿では,DuAl-PT(Dual-Aligned Prompt Tuning)と呼ばれる,事前学習型大規模言語モデル(LLM)を組み込むことにより,視覚言語モデルの迅速な学習を改善する新しい手法を提案する。
CoOpのような学習可能なプロンプトは、制御と解釈が難しいエンドツーエンドのトレーニングを通じて、コンテキストを暗黙的にモデル化する。
GPT-3 のような LLM によって生成される明示的な文脈記述は、ゼロショット分類に直接使用することができるが、そのようなプロンプトは LLM に依存し過ぎており、まだ少数ショット領域では探索されていない。
DuAl-PTでは、明示的および暗黙的両方のコンテキストモデリングの恩恵を受けながら、よりコンテキスト対応のプロンプトを学習することを提案する。
そこで,本稿では,事前学習したLLMを用いて文脈記述を生成する手法を提案するとともに,プロンプトとローカル画像の特徴のアライメントとともに,LLMの知識から学習を促す。
実証的には、DuAl-PTは、数ショットの認識とベース・ツー・ニューな一般化で11のダウンストリームデータセット上で優れたパフォーマンスを実現している。
DuAl-PTが強力なベースラインになることを期待したい。
コードは利用可能だ。
関連論文リスト
- Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance [67.26434607115392]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。
LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。
MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
論文 参考訳(メタデータ) (2024-11-21T16:33:30Z) - Aggregate-and-Adapt Natural Language Prompts for Downstream Generalization of CLIP [24.22470408549266]
Aggregate-and-Adapted Prompt Embedding (AAPE) としての即時埋め込み
AAPEは、視覚言語理解タスクを含む、さまざまな下流データ分散とタスクに一般化できることが示されている。
また、AAPEは非標準およびOOD例の処理に特に有用であることを示す。
論文 参考訳(メタデータ) (2024-10-31T07:41:13Z) - IPO: Interpretable Prompt Optimization for Vision-Language Models [40.83071220530289]
本稿では,シンプルだが解釈可能なプロンプト(IPO)を紹介する。
IPOは大規模言語モデル(LLM)を使用してテキストプロンプトを動的に生成する。
画像記述を生成することで、視覚的内容の条件付けに大型マルチモーダルモデル(LMM)を組み込む。
論文 参考訳(メタデータ) (2024-10-20T14:10:22Z) - Optimization of Prompt Learning via Multi-Knowledge Representation for Vision-Language Models [26.964848679914354]
CoKnowは、リッチなコンテキスト知識を備えたビジョンランゲージモデルのためのPrompt Learningを強化するフレームワークである。
我々は11の公開データセットに対して広範な実験を行い、CoKnowが過去の手法より優れていることを示した。
論文 参考訳(メタデータ) (2024-04-16T07:44:52Z) - Vision-Language Models Provide Promptable Representations for Reinforcement Learning [67.40524195671479]
視覚言語モデル(VLM)に符号化された多量の一般知識と索引可能な世界知識をインターネット規模で事前学習して具体的強化学習(RL)を行う新しい手法を提案する。
提案手法では,共通意味的推論の表現にチェーン・オブ・シントを用いることで,新規シーンのポリシー性能を1.5倍向上できることを示す。
論文 参考訳(メタデータ) (2024-02-05T00:48:56Z) - Learning to Prompt with Text Only Supervision for Vision-Language Models [107.282881515667]
メソッドの1つのブランチは、視覚情報を使用してプロンプトを学習することでCLIPに適応する。
別のアプローチでは、大規模な言語モデルからクラス記述を生成することで、トレーニング不要の手法を利用する。
そこで本研究では,テキストデータのみを用いてプロンプトを学習することで,両ストリームの強みを組み合わせることを提案する。
論文 参考訳(メタデータ) (2024-01-04T18:59:49Z) - Generative Context-aware Fine-tuning of Self-supervised Speech Models [54.389711404209415]
生成型大規模言語モデル(LLM)生成コンテキスト情報の利用について検討する。
自己教師型音声モデルの微調整中に生成した情報を抽出する手法を提案する。
本稿では,SLUE と Libri-light のベンチマークを用いて,自動音声認識,名前付きエンティティ認識,感情分析を行う手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T15:46:02Z) - VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - Large Language Models are Good Prompt Learners for Low-Shot Image Classification [12.053713356249695]
本稿では,CLIPテキストエンコーダの適応的なプロンプトを生成するLLaMP,Large Language ModelsをPrompt学習者として提案する。
実験により、LLaMPは他の最先端の素早い学習法と比較して、ゼロショットの一般化と少数ショットの画像分類の両方においてより良い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-07T06:43:34Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。