論文の概要: Do Vision-Language Models Understand Compound Nouns?
- arxiv url: http://arxiv.org/abs/2404.00419v1
- Date: Sat, 30 Mar 2024 16:54:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 03:49:50.863893
- Title: Do Vision-Language Models Understand Compound Nouns?
- Title(参考訳): 視覚言語モデルは複合名詞を理解するか?
- Authors: Sonal Kumar, Sreyan Ghosh, S Sakshi, Utkarsh Tyagi, Dinesh Manocha,
- Abstract要約: CLIPのようなオープン語彙の視覚言語モデル(VLM)は、対照的な損失を用いて訓練され、テキストから画像への検索のための有望な新しいパラダイムとして登場した。
我々は400個のユニークなCNを持つ新しいベンチマークであるCompunをキュレートし、CNの解釈におけるVLMの有効性を評価する。
テキストプロンプトのための手書きテンプレートを超えて、CLIPのようなモデルで広く使われている別のフレームワークを提案する。
- 参考スコア(独自算出の注目度): 50.00532752250206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-vocabulary vision-language models (VLMs) like CLIP, trained using contrastive loss, have emerged as a promising new paradigm for text-to-image retrieval. However, do VLMs understand compound nouns (CNs) (e.g., lab coat) as well as they understand nouns (e.g., lab)? We curate Compun, a novel benchmark with 400 unique and commonly used CNs, to evaluate the effectiveness of VLMs in interpreting CNs. The Compun benchmark challenges a VLM for text-to-image retrieval where, given a text prompt with a CN, the task is to select the correct image that shows the CN among a pair of distractor images that show the constituent nouns that make up the CN. Next, we perform an in-depth analysis to highlight CLIPs' limited understanding of certain types of CNs. Finally, we present an alternative framework that moves beyond hand-written templates for text prompts widely used by CLIP-like models. We employ a Large Language Model to generate multiple diverse captions that include the CN as an object in the scene described by the caption. Our proposed method improves CN understanding of CLIP by 8.25% on Compun. Code and benchmark are available at: https://github.com/sonalkum/Compun
- Abstract(参考訳): CLIPのようなオープン語彙の視覚言語モデル(VLM)は、対照的な損失を用いて訓練され、テキストから画像への検索のための有望な新しいパラダイムとして登場した。
しかし、VLMは複合名詞(CN)(eg, lab coat)と、それらが理解している名詞(eg, lab)を理解できますか?
我々は400個のユニークなCNを持つ新しいベンチマークであるCompunをキュレートし、CNの解釈におけるVLMの有効性を評価する。
Compunベンチマークは、テキスト・ツー・イメージ検索のためのVLMに挑戦し、CNでテキストプロンプトが与えられた場合、CNを構成する構成名詞を示す2つの散逸した画像のうちCNを示す正しい画像を選択する。
次に、CLIPsが特定のタイプのCNを限定的に理解していることを強調するために、詳細な分析を行う。
最後に、CLIPのようなモデルで広く使われているテキストプロンプト用の手書きテンプレートを超えて、代替フレームワークを提案する。
我々は,CNを対象とする複数の多種多様なキャプションを生成するために,Large Language Modelを採用している。
提案手法はCLIPのCN理解をCompun上で8.25%改善する。
コードとベンチマークは、https://github.com/sonalkum/Compun.orgで公開されている。
関連論文リスト
- TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - Contrastive Localized Language-Image Pre-Training [60.4967533101887]
コントラスト言語-画像事前学習(CLIP)は、画像/テキスト表現を生成するために視覚エンコーダを訓練するための著名な方法である。
本稿では,CLIPとリージョンテキストのコントラッシブな損失とモジュールを補完することにより,CLOC(Contrastive Localized Language- Image Pre-Trening)を提案する。
CLOCは画像領域認識および検索タスクのための高品質な地域埋め込みを可能にする。
論文 参考訳(メタデータ) (2024-10-03T17:56:09Z) - Beyond Text: Frozen Large Language Models in Visual Signal Comprehension [34.398976855955404]
Vision-to-Language Tokenizer(V2T Tokenizer)は、エンコーダデコーダ、LLM語彙、CLIPモデルを組み合わせて、画像を「外国語」に変換する。
我々は、画像認識、画像キャプション、視覚的質問応答などの理解タスクを含む、厳密な実験を行い、また、塗り絵、アウトペイント、デブロアリング、シフト復元などの画像装飾タスクを実施。
論文 参考訳(メタデータ) (2024-03-12T17:59:51Z) - Large Language Models are Good Prompt Learners for Low-Shot Image Classification [12.053713356249695]
本稿では,CLIPテキストエンコーダの適応的なプロンプトを生成するLLaMP,Large Language ModelsをPrompt学習者として提案する。
実験により、LLaMPは他の最先端の素早い学習法と比較して、ゼロショットの一般化と少数ショットの画像分類の両方においてより良い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-07T06:43:34Z) - Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文 参考訳(メタデータ) (2022-05-26T02:46:09Z) - Dual Graph Convolutional Networks with Transformer and Curriculum
Learning for Image Captioning [26.496357517937614]
既存の画像キャプション手法は、単一のイメージ内のオブジェクトやインスタンスの関係を理解することだけに焦点を当てている。
画像キャプションのための変換器とカリキュラム学習を備えたデュアルグラフ畳み込みネットワーク(Dual-GCN)を提案する。
論文 参考訳(メタデータ) (2021-08-05T04:57:06Z) - ParaCNN: Visual Paragraph Generation via Adversarial Twin Contextual
CNNs [21.070371571067348]
視覚的段落生成について検討し,より詳細な画像を含む長い段落の画像を記述した。
従来の研究では、階層的リカレントニューラルネットワーク(RNN)のようなモデルを用いて、この項を生成することが多かった。
階層型CNNアーキテクチャを用いた視覚的段落を生成するために,新しい純粋CNNモデルであるParaCNNを提案する。
論文 参考訳(メタデータ) (2020-04-21T19:54:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。