論文の概要: CoPL: Contextual Prompt Learning for Vision-Language Understanding
- arxiv url: http://arxiv.org/abs/2307.00910v2
- Date: Tue, 12 Dec 2023 05:34:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 20:21:32.777779
- Title: CoPL: Contextual Prompt Learning for Vision-Language Understanding
- Title(参考訳): CoPL:視覚言語理解のためのコンテキストプロンプト学習
- Authors: Koustava Goswami, Srikrishna Karanam, Prateksha Udhayanan, K J Joseph
and Balaji Vasan Srinivasan
- Abstract要約: 画像の局所的な特徴にプロンプトを調整できるコンテキスト型プロンプト学習(CoPL)フレームワークを提案する。
これまでの研究における重要なイノベーションは、素早い学習プロセスの一部としてローカルな画像機能を使うこと、そしてさらに重要なのは、そのタスクに適したローカルな機能に基づいてこれらのプロンプトを重み付けすることである。
本手法は, 工法の現状と比較して, 性能を著しく向上させる。
- 参考スコア(独自算出の注目度): 21.709017504227823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in multimodal learning has resulted in powerful
vision-language models, whose representations are generalizable across a
variety of downstream tasks. Recently, their generalization ability has been
further extended by incorporating trainable prompts, borrowed from the natural
language processing literature. While such prompt learning techniques have
shown impressive results, we identify that these prompts are trained based on
global image features which limits itself in two aspects: First, by using
global features, these prompts could be focusing less on the discriminative
foreground image, resulting in poor generalization to various
out-of-distribution test cases. Second, existing work weights all prompts
equally whereas intuitively, prompts should be reweighed according to the
semantics of the image. We address these as part of our proposed Contextual
Prompt Learning (CoPL) framework, capable of aligning the prompts to the
localized features of the image. Our key innovations over earlier works include
using local image features as part of the prompt learning process, and more
crucially, learning to weight these prompts based on local features that are
appropriate for the task at hand. This gives us dynamic prompts that are both
aligned to local image features as well as aware of local contextual
relationships. Our extensive set of experiments on a variety of standard and
few-shot datasets show that our method produces substantially improved
performance when compared to the current state of the art methods. We also
demonstrate both few-shot and out-of-distribution performance to establish the
utility of learning dynamic prompts that are aligned to local image features.
- Abstract(参考訳): マルチモーダル学習の最近の進歩は、様々な下流タスクで表現が一般化できる強力な視覚言語モデルを生み出している。
近年,自然言語処理の文献から借用した訓練可能なプロンプトを取り入れた一般化能力がさらに拡張されている。
このような迅速な学習技術は印象的な結果を示しているが、これらのプロンプトは2つの側面に制限されたグローバルイメージの特徴に基づいてトレーニングされていることを認識している。
第二に、既存の作業はすべてのプロンプトを等しく直感的に重くし、イメージのセマンティクスに応じてプロンプトをリウィートすべきである。
提案するContextual Prompt Learning(CoPL)フレームワークの一部として,画像の局所的な特徴にプロンプトを合わせることができる。
これまでの作業で重要なイノベーションは、プロンプト学習プロセスの一部としてローカルイメージ機能を使用すること、さらに重要なのは、目の前のタスクに適したローカル機能に基づいてこれらのプロンプトを重み付けする学習です。
これにより、ローカルな画像特徴に一致した動的プロンプトと、ローカルなコンテキスト関係を認識することができます。
各種標準データセットおよび少数ショットデータセットに対する広範囲な実験結果から,本手法は,現在の技術手法と比較して,大幅な性能向上を図っている。
また,局所的な画像特徴に適応した動的プロンプトの学習の有用性を確立するために,散発的および散発的性能の両方を実証する。
関連論文リスト
- SyCoCa: Symmetrizing Contrastive Captioners with Attentive Masking for
Multimodal Alignment [11.556516260190737]
言語と視覚のマルチモーダルアライメントは、現在の視覚言語モデル研究の基本的なトピックである。
本稿では,Contrastive Language-Image Pretraining (CLIP) と Image Caption (IC) を統合するためのContrastive Captioners (CoCa) を提案する。
論文 参考訳(メタデータ) (2024-01-04T08:42:36Z) - DPL: Decoupled Prompt Learning for Vision-Language Models [41.90997623029582]
本稿では,この問題を緩和するために,学習者の注意を再構築する新しい手法,Decoupled Prompt Learningを提案する。
我々のアプローチは、視覚的・テキスト的モダリティの両方に柔軟であり、マルチモーダル・プロンプト・ラーニングに容易に拡張できる。
論文 参考訳(メタデータ) (2023-08-19T15:48:38Z) - ECO: Ensembling Context Optimization for Vision-Language Models [22.32996522125523]
学習は多様であり、おそらくより短い文脈でかなり改善され、一貫して結果が得られます。
推論時に余分なコストを伴わずに、より優れたショット機能について報告する。
論文 参考訳(メタデータ) (2023-07-26T09:31:06Z) - Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models [52.3032592038514]
ラベル関連画像情報で生成したプロンプトを豊かにするためのクラス対応テキストプロンプトを提案する。
我々は、新しいクラスで4.03%、調和平均で3.19%の改善を11の分類ベンチマークで達成した。
論文 参考訳(メタデータ) (2023-03-30T06:02:40Z) - Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。
各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。
そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文 参考訳(メタデータ) (2023-01-09T13:54:11Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - Leveraging Visual Knowledge in Language Tasks: An Empirical Study on
Intermediate Pre-training for Cross-modal Knowledge Transfer [61.34424171458634]
視覚的知識を言語モデルに組み込むことがギャップを埋めるかどうかを検討する。
実験の結果,視覚的知識伝達は低リソース環境と完全教師付き環境の両方で性能を向上できることがわかった。
論文 参考訳(メタデータ) (2022-03-14T22:02:40Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z) - Evaluating Multimodal Representations on Visual Semantic Textual
Similarity [22.835699807110018]
本稿では,新しいタスクであるVisual Semantic Textual similarity (vSTS)を提案する。
単純なマルチモーダル表現を用いた実験により、画像表現の追加はテキストのみの表現よりも推論が優れていることが示された。
我々の研究は、視覚情報のテキスト推論への貢献が成功したことを初めて示しており、より複雑なマルチモーダル表現オプションの余地は十分にある。
論文 参考訳(メタデータ) (2020-04-04T09:03:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。