論文の概要: Prompting Large Vision-Language Models for Compositional Reasoning
- arxiv url: http://arxiv.org/abs/2401.11337v1
- Date: Sat, 20 Jan 2024 22:04:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 16:53:47.030705
- Title: Prompting Large Vision-Language Models for Compositional Reasoning
- Title(参考訳): 構成推論のための大規模視覚言語モデルの提案
- Authors: Timothy Ossowski, Ming Jiang, Junjie Hu
- Abstract要約: 本研究では,大規模な視覚言語モデルに画像の描写を促し,合成推論を行う新しい生成手法を提案する。
提案手法は,Winogroundデータセット上の他の埋め込み手法よりも優れており,最適記述によって拡張された場合,最大10%の精度が向上する。
- 参考スコア(独自算出の注目度): 12.908633583017359
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models such as CLIP have shown impressive capabilities in
encoding texts and images into aligned embeddings, enabling the retrieval of
multimodal data in a shared embedding space. However, these embedding-based
models still face challenges in effectively matching images and texts with
similar visio-linguistic compositionality, as evidenced by their performance on
the recent Winoground dataset. In this paper, we argue that this limitation
stems from two factors: the use of single vector representations for complex
multimodal data, and the absence of step-by-step reasoning in these
embedding-based methods. To address this issue, we make an exploratory step
using a novel generative method that prompts large vision-language models
(e.g., GPT-4) to depict images and perform compositional reasoning. Our method
outperforms other embedding-based methods on the Winoground dataset, and
obtains further improvement of up to 10% accuracy when enhanced with the
optimal description.
- Abstract(参考訳): CLIPのようなヴィジュアル言語モデルは、テキストやイメージを整列埋め込みに符号化する素晴らしい能力を示しており、共有埋め込み空間におけるマルチモーダルデータの検索を可能にしている。
しかし、これらの埋め込みベースのモデルは、最近のWinogroundデータセットのパフォーマンスから証明されているように、画像とテキストを類似した視覚言語的な構成性と効果的にマッチングする上で、依然として課題に直面している。
本稿では, この制限は, 複雑なマルチモーダルデータに対する単一ベクトル表現の使用と, 組込み法におけるステップバイステップ推論の欠如の2つの要因に起因していると論じる。
そこで本研究では,大規模な視覚言語モデル(gpt-4など)に画像の描写と合成推論を促す新しい生成法を用いて探索的なステップを提案する。
提案手法は,Winogroundデータセット上の他の埋め込み手法よりも優れており,最適記述で拡張した場合に最大10%の精度が向上する。
関連論文リスト
- Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。
ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-23T06:11:50Z) - Augment the Pairs: Semantics-Preserving Image-Caption Pair Augmentation
for Grounding-Based Vision and Language Models [16.4010094165575]
テキスト条件付きおよびテキスト条件付きデータ拡張で訓練されたロバストな句接頭辞モデルを提案する。
近年のマスク信号再構成に着想を得て,新しいデータ拡張形式としてピクセルレベルのマスキングを提案する。
提案手法は,各種メトリクスを用いた最先端技術に対する高度な性能を示す。
論文 参考訳(メタデータ) (2023-11-05T01:14:02Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Augmenting CLIP with Improved Visio-Linguistic Reasoning [51.135606355630046]
本稿では,CLIPの視覚言語推論能力を向上させるために,SDS-CLIPと呼ばれる試料効率のよい軽量化手法を提案する。
提案手法は,異なるCLIPモデルの絶対的視覚言語性能を最大7%向上させる。
CLIPに視覚言語推論を誘導する副産物として、ゼロショットのパフォーマンスは、さまざまな下流データセットでわずかに向上する。
論文 参考訳(メタデータ) (2023-07-18T13:10:11Z) - Guiding Attention using Partial-Order Relationships for Image Captioning [2.620091916172863]
誘導注意ネットワーク機構は、視覚シーンとテキスト記述の関係を利用する。
この埋め込み空間は、共有セマンティック空間における類似の画像、トピック、キャプションを許容する。
MSCOCOデータセットに基づく実験結果は,我々のアプローチの競争力を示している。
論文 参考訳(メタデータ) (2022-04-15T14:22:09Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。