論文の概要: Do Vision & Language Decoders use Images and Text equally? How Self-consistent are their Explanations?
- arxiv url: http://arxiv.org/abs/2404.18624v1
- Date: Mon, 29 Apr 2024 11:52:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 13:57:37.636755
- Title: Do Vision & Language Decoders use Images and Text equally? How Self-consistent are their Explanations?
- Title(参考訳): ビジョン・アンド・ランゲージ・デコーダは画像とテキストを等しく使用するか?
- Authors: Letitia Parcalabescu, Anette Frank,
- Abstract要約: 本稿では、視覚モデルとテキストモデルが説明を生成する際に、モダリティに依存しているかどうかを検討する。
また,VLMデコーダの自己整合性についても,ポストホックとCoTの両説明設定で評価した。
- 参考スコア(独自算出の注目度): 22.37545779269458
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision and language models (VLMs) are currently the most generally performant architectures on multimodal tasks. Next to their predictions, they can also produce explanations, either in post-hoc or CoT settings. However, it is not clear how much they use the vision and text modalities when generating predictions or explanations. In this work, we investigate if VLMs rely on modalities differently when generating explanations as opposed to when they provide answers. We also evaluate the self-consistency of VLM decoders in both post-hoc and CoT explanation settings, by extending existing tests and measures to VLM decoders. We find that VLMs are less self-consistent than LLMs. The text contributions in VL decoders are much larger than the image contributions across all measured tasks. And the contributions of the image are significantly larger for explanation generations than for answer generation. This difference is even larger in CoT compared to the post-hoc explanation setting. We also provide an up-to-date benchmarking of state-of-the-art VL decoders on the VALSE benchmark, which to date focused only on VL encoders. We find that VL decoders are still struggling with most phenomena tested by VALSE.
- Abstract(参考訳): 視覚と言語モデル(VLM)は現在、マルチモーダルタスクにおける最も一般的なアーキテクチャである。
予測の次は、ポストホックまたはCoT設定でも説明を生成することができる。
しかし、予測や説明を生成する際に、視覚とテキストのモダリティがどの程度使われるかは明らかになっていない。
本研究は,VLMが解答の時と対照的に説明文を生成する際に,異なるモダリティに依存しているかどうかを考察する。
また,VLMデコーダの自己整合性を評価するために,既存のテストや対策をVLMデコーダに拡張することで,ポストホックおよびCoT説明設定の両方で自己整合性を評価する。
VLM は LLM よりも自己整合性が低いことがわかった。
VLデコーダのテキストコントリビューションは、すべての計測タスクにおける画像コントリビューションよりもはるかに大きい。
また、画像のコントリビューションは、回答生成よりも説明世代の方がはるかに大きい。
この違いは、ポストホックな説明設定よりもCoTの方が大きい。
VALSEベンチマークでは,VLエンコーダのみに着目した最新のVLデコーダのベンチマークも提供している。
VLデコーダは、VALSEによってテストされたほとんどの現象にまだ苦戦している。
関連論文リスト
- Unveiling Encoder-Free Vision-Language Models [62.52803514667452]
既存の視覚言語モデル (VLM) は主に視覚的特徴を抽出するために視覚エンコーダに依存しており、視覚言語タスクには大きな言語モデル (LLM) が続く。
エンコーダベースモデルとエンコーダフリーモデルとのギャップを橋渡しし、純粋なVLMに対するシンプルで効果的なトレーニングレシピを示す。
EVEはエンコーダなしの視覚言語モデルで、効率的にトレーニングと転送ができる。
論文 参考訳(メタデータ) (2024-06-17T17:59:44Z) - ConMe: Rethinking Evaluation of Compositional Reasoning for Modern VLMs [55.336997325029806]
構成推論(CR)は属性、関係、単語の順序の重要さを把握する。
近年の視覚言語モデル (VLM) は、そのような推論タスクにおいて顕著な習熟性を示している。
論文 参考訳(メタデータ) (2024-06-12T12:54:27Z) - Don't Buy it! Reassessing the Ad Understanding Abilities of Contrastive Multimodal Models [0.0]
従来の研究では、広告説明検索タスクにおいて、対照的な視覚・言語モデルの印象的なゼロショット精度が報告されていた。
ここでは, コントラストのあるVLMが, 接地を利用して解けることを示す。
本稿では, 対向的根拠を持つ新たな評価テストセットを提案する。
論文 参考訳(メタデータ) (2024-05-31T14:31:46Z) - BRAVE: Broadening the visual encoding of vision-language models [48.41146184575914]
視覚言語モデル(VLM)は、例えばCLIPのような視覚エンコーダと、下流タスクを解決するために符号化された特徴を解釈する言語モデル(LM)で構成されている。
目覚しい進歩にもかかわらず、VLMは視覚エンコーダの限られた能力のためにいくつかの欠点に直面している。
BRAVEは,複数の凍結エンコーダの特徴をより汎用的な表現に集約し,凍結したLMへの入力として直接供給することができる。
論文 参考訳(メタデータ) (2024-04-10T17:59:45Z) - Benchmarking Zero-Shot Recognition with Vision-Language Models: Challenges on Granularity and Specificity [45.86789047206224]
本稿では,ゼロショット認識における視覚言語モデル(VLM)の評価のための新しいベンチマークを提案する。
我々のベンチマークは、意味的粒度レベルにおける概念理解におけるVLMの一貫性と、テキストの特異性に対する応答を検証した。
発見によると、VLMは微粒な概念を適度に好み、特異性に苦しむ。
論文 参考訳(メタデータ) (2023-06-28T09:29:06Z) - One does not fit all! On the Complementarity of Vision Encoders for
Vision and Language Tasks [59.49639580525051]
マルチモーダルモデルはビジョン・アンド・ランゲージ(V+L)タスクの解決を目的としている。
現在の研究は、テキスタイルの事前訓練されたVEが汎用エンコーダとして機能すると仮定している。
本研究では,異なるVEに格納されている情報が相補的であるかどうかを,分析に焦点をあてる。
論文 参考訳(メタデータ) (2022-10-12T16:31:39Z) - Multimodal Adaptive Distillation for Leveraging Unimodal Encoders for
Vision-Language Tasks [118.49566068398642]
視覚言語(VL)タスクのためのクロスモーダルエンコーダは、しばしば注意深く計算された視覚言語データセットで事前訓練される。
一様エンコーダは、コスト抑制の少ない単純なアノテーションで事前訓練され、数十億から数十億のスケールを達成する。
我々は,事前学習したエンコーダから多モードVLエンコーダへの有用な知識を適応的に蒸留するマルチモーダル適応蒸留(MAD)を提案する。
論文 参考訳(メタデータ) (2022-04-22T04:41:04Z) - Scheduled Sampling in Vision-Language Pretraining with Decoupled
Encoder-Decoder Network [99.03895740754402]
本稿では,2つの切り離されたクロスモーダルエンコーダとデコーダが関与するエンコーダ・デコーダ構造の2ストリーム分離設計を提案する。
その代替として,2パス方式でエンコーダデコーダを事前学習することで,そのような不一致を緩和する一次サンプリング戦略を提案する。
論文 参考訳(メタデータ) (2021-01-27T17:36:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。