論文の概要: VisualGPTScore: Visio-Linguistic Reasoning with Multimodal Generative
Pre-Training Scores
- arxiv url: http://arxiv.org/abs/2306.01879v1
- Date: Fri, 2 Jun 2023 19:19:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 23:32:28.175843
- Title: VisualGPTScore: Visio-Linguistic Reasoning with Multimodal Generative
Pre-Training Scores
- Title(参考訳): VisualGPTScore: マルチモーダル生成事前学習スコアを用いたビシオ言語推論
- Authors: Zhiqiu Lin, Xinyue Chen, Deepak Pathak, Pengchuan Zhang, Deva Ramanan
- Abstract要約: 視覚言語モデル (VLM) は、比較的な画像テキストマッチング損失で差別的に事前訓練される。
VisualGPTScoreは、イメージ条件付き言語モデルを用いて、画像上に条件付のテキストキャプションの可能性をキャプチャする。
- 参考スコア(独自算出の注目度): 78.70265746736023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) discriminatively pre-trained with contrastive
image-text matching losses such as $P(\text{match}|\text{text}, \text{image})$
have been criticized for lacking compositional understanding. This means they
might output similar scores even if the original caption is rearranged into a
different semantic statement. To address this, we propose to use the ${\bf
V}$isual ${\bf G}$enerative ${\bf P}$re-${\bf T}$raining Score (${\bf
VisualGPTScore}$) of $P(\text{text}|\text{image})$, a $\textit{multimodal
generative}$ score that captures the likelihood of a text caption conditioned
on an image using an image-conditioned language model. Contrary to the belief
that VLMs are mere bag-of-words models, our off-the-shelf VisualGPTScore
demonstrates top-tier performance on recently proposed image-text retrieval
benchmarks like ARO and Crepe that assess compositional reasoning. Furthermore,
we factorize VisualGPTScore into a product of the $\textit{marginal}$ P(text)
and the $\textit{Pointwise Mutual Information}$ (PMI). This helps to (a)
diagnose datasets with strong language bias, and (b) debias results on other
benchmarks like Winoground using an information-theoretic framework.
VisualGPTScore provides valuable insights and serves as a strong baseline for
future evaluation of visio-linguistic compositionality.
- Abstract(参考訳): 視覚言語モデル (vlms) は、$p(\text{match}|\text{text}, \text{image})$ のような対照的な画像テキストマッチングの損失と区別的に事前訓練されている。
これは、元のキャプションが異なる意味論文に並べ替えられたとしても、同様のスコアを出力できることを意味する。
これを解決するために、${\bf V}$isual ${\bf G}$enerative ${\bf P}$re-${\bf T}$raining Score (${\bf VisualGPTScore}$) of $P(\text{text}|\text{image})$, a $\textit{multimodal generative}$ scoreは、画像条件付き言語モデルを用いて画像に条件付けされたテキストキャプションの可能性をキャプチャする。
VLMは単なる単語のバッグ・オブ・ワードモデルであるという考えとは対照的に,私たちの既製のVisualGPTScoreは,AROやCrepeといった最近提案された画像テキスト検索ベンチマークにおいて,構成的推論を評価する上で,最上位のパフォーマンスを示す。
さらに、VisualGPTScoreを$\textit{marginal}$ P(text)と$\textit{Pointwise Mutual Information}$ (PMI)に分解する。
これは役に立ちます
(a)強い言語バイアスでデータセットを診断する、
(b)情報理論フレームワークを使用したWinogroundのような他のベンチマークでのデバイアス結果。
VisualGPTScoreは貴重な洞察を提供し、視覚言語学的構成性の将来の評価の強力なベースラインとなる。
関連論文リスト
- ViGoR: Improving Visual Grounding of Large Vision Language Models with Fine-Grained Reward Modeling [35.098725056881655]
大型視覚言語モデル(LVLM)は前例のない視覚推論能力を示している。
生成されたテキストは、しばしば視覚入力の不正確な接地に悩まされ、既存のシーン要素の幻覚などのエラーが発生する。
そこで我々は,LVLMの視覚的接地性を高めるために,微粒な報酬モデルを用いた新しいフレームワークViGoRを提案する。
論文 参考訳(メタデータ) (2024-02-09T01:00:14Z) - Towards Grounded Visual Spatial Reasoning in Multi-Modal Vision Language
Models [3.86170450233149]
画像とテキストとのマッチングを訓練した大規模視覚言語モデル(VLM)では,空間的関係の微妙な理解が欠如していることが示されている。
本稿では,空間的節の認識とランク付けのための,よりきめ細かな構成的アプローチを提案する。
論文 参考訳(メタデータ) (2023-08-18T18:58:54Z) - UniFine: A Unified and Fine-grained Approach for Zero-shot
Vision-Language Understanding [84.83494254263138]
ゼロショット視覚言語学習のための微細な情報を利用する統一的なフレームワークを提案する。
我々のフレームワークは従来のVQAのゼロショット法よりも優れており、SNLI-VEとVCRの大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-07-03T09:03:12Z) - Visually-augmented pretrained language models for NLP tasks without
images [77.74849855049523]
既存のソリューションはしばしば視覚的知識増強のために明示的なイメージに依存している。
我々は、新しいtextbfVisually-textbfAugmented fine-tuningアプローチを提案する。
我々のアプローチは、BERT、RoBERTa、BART、T5を異なるスケールで継続的に改善することができる。
論文 参考訳(メタデータ) (2022-12-15T16:13:25Z) - I Can't Believe There's No Images! Learning Visual Tasks Using only
Language Supervision [32.49636188029509]
4つのタスクのテキストトレーニングデータのみを用いてモデルを作成する。
これらのモデルは、画像上で訓練されたモデルに近いパフォーマンスを示す。
画像データと人為的な言語データを用いない,多種多様なスタイリスティックな画像キャプションモデルについて紹介する。
論文 参考訳(メタデータ) (2022-11-17T18:52:19Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z) - Visually Grounded Compound PCFGs [65.04669567781634]
言語理解のための視覚的基盤の爆発は、最近多くの注目を集めている。
本研究では,視覚的な文法誘導について検討し,未ラベルテキストとその視覚的キャプションから選挙区を学習する。
論文 参考訳(メタデータ) (2020-09-25T19:07:00Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。