論文の概要: Do Vision & Language Decoders use Images and Text equally? How Self-consistent are their Explanations?
- arxiv url: http://arxiv.org/abs/2404.18624v3
- Date: Sun, 08 Dec 2024 13:51:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:52:04.775791
- Title: Do Vision & Language Decoders use Images and Text equally? How Self-consistent are their Explanations?
- Title(参考訳): ビジョン・アンド・ランゲージ・デコーダは画像とテキストを等しく使用するか?
- Authors: Letitia Parcalabescu, Anette Frank,
- Abstract要約: 視覚と言語モデル(VLM)デコーダは、マルチモーダルタスクにおける最も優れたアーキテクチャである。
回答や説明を生成する際に、入力視覚とテキストのモダリティがどの程度使われているかは明らかになっていない。
- 参考スコア(独自算出の注目度): 22.37545779269458
- License:
- Abstract: Vision and language model (VLM) decoders are currently the best-performing architectures on multimodal tasks. Next to answers, they are able to produce natural language explanations, either in post-hoc or CoT settings. However, it is not clear to what extent they are using the input vision and text modalities when generating answers or explanations. In this work, we investigate if VLMs rely on their input modalities differently when they produce explanations as opposed to answers. We also evaluate the self-consistency of VLM decoders in both post-hoc and CoT explanation settings, by extending existing unimodal tests and measures to VLM decoders. We find that most tested VLMs are less self-consistent than LLMs. Text contributions in all tested VL decoders are more important than image contributions in all examined tasks. However, when comparing explanation generation to answer generation, the contributions of images are significantly stronger for generating explanations compared to answers. This difference is even larger in CoT compared to post-hoc explanations. Lastly, we provide an up-to-date benchmarking of state-of-the-art VL decoders on the VALSE benchmark, which before was restricted to VL encoders. We find that the tested VL decoders still struggle with most phenomena tested by VALSE.
- Abstract(参考訳): 視覚と言語モデル(VLM)デコーダは現在、マルチモーダルタスクにおける最高のパフォーマンスのアーキテクチャである。
回答の次は、ポストホックまたはCoT設定で自然言語の説明を生成することができる。
しかし、回答や説明を生成する際に、入力視覚とテキストのモダリティがどの程度使われているかは明らかになっていない。
本研究は,VLMが解答ではなく説明を生成する場合,入力のモーダル性が異なるかどうかを考察する。
また,VLMデコーダの自己整合性を評価するために,既存の単調なテストと測定値をVLMデコーダに拡張することで,ポストホックおよびCoT説明設定におけるVLMデコーダの自己整合性を評価する。
その結果、ほとんどのVLMはLPMよりも自己整合性が低いことがわかった。
テストされたVLデコーダのテキストコントリビューションは、すべての検査タスクにおける画像コントリビューションよりも重要である。
しかし、説明生成と回答生成を比較する場合、画像のコントリビューションは、回答よりも説明を生成するために著しく強くなる。
この違いは、ポストホックな説明に比べ、CoTではさらに大きい。
最後に、VALSEベンチマークでは、VLエンコーダに制限されていた最先端のVLデコーダの最新のベンチマークを提供する。
テスト対象のVLデコーダは,VALSEによってテストされたほとんどの現象と相容れないことがわかった。
関連論文リスト
- Explanations that reveal all through the definition of encoding [18.016204264115462]
我々は、条件依存によってこの余分な予測力を識別する符号化の定義を開発する。
既存のスコアは、上述のエンコード説明をランク付けしないことを証明し、それらを正しくランク付けするSTRIPE-Xを開発する。
論文 参考訳(メタデータ) (2024-11-04T23:00:24Z) - How Well Can Vision Language Models See Image Details? [53.036922527685064]
視覚言語モデルはどのようにして画像の詳細を見ることができるのか」を探求するために画素値予測タスクを導入する。
我々の研究は、VLM事前学習タスクと視覚エンコーダ適応の1つとして画素値予測を組み込むことで、下流画像言語理解タスクにおけるVLM性能が著しく向上することを明らかにする。
論文 参考訳(メタデータ) (2024-08-07T17:59:40Z) - ConMe: Rethinking Evaluation of Compositional Reasoning for Modern VLMs [95.15814662348245]
構成推論(CR)は属性、関係、単語の順序の重要さを把握する。
近年の視覚言語モデル (VLM) は、そのような推論タスクにおいて顕著な習熟性を示している。
論文 参考訳(メタデータ) (2024-06-12T12:54:27Z) - Don't Buy it! Reassessing the Ad Understanding Abilities of Contrastive Multimodal Models [0.0]
従来の研究では、広告説明検索タスクにおいて、対照的な視覚・言語モデルの印象的なゼロショット精度が報告されていた。
ここでは, コントラストのあるVLMが, 接地を利用して解けることを示す。
本稿では, 対向的根拠を持つ新たな評価テストセットを提案する。
論文 参考訳(メタデータ) (2024-05-31T14:31:46Z) - BRAVE: Broadening the visual encoding of vision-language models [48.41146184575914]
視覚言語モデル(VLM)は、例えばCLIPのような視覚エンコーダと、下流タスクを解決するために符号化された特徴を解釈する言語モデル(LM)で構成されている。
目覚しい進歩にもかかわらず、VLMは視覚エンコーダの限られた能力のためにいくつかの欠点に直面している。
BRAVEは,複数の凍結エンコーダの特徴をより汎用的な表現に集約し,凍結したLMへの入力として直接供給することができる。
論文 参考訳(メタデータ) (2024-04-10T17:59:45Z) - Implications of Annotation Artifacts in Edge Probing Test Datasets [3.1111196835684685]
一般的に使用されているエッジ探索テストデータセットには,暗記を含むさまざまなバイアスがあることが示されている。
これらのバイアスが除去されると、LLMエンコーダはランダムなバイアスと大きな違いを示す。
論文 参考訳(メタデータ) (2023-10-20T23:19:35Z) - One does not fit all! On the Complementarity of Vision Encoders for
Vision and Language Tasks [59.49639580525051]
マルチモーダルモデルはビジョン・アンド・ランゲージ(V+L)タスクの解決を目的としている。
現在の研究は、テキスタイルの事前訓練されたVEが汎用エンコーダとして機能すると仮定している。
本研究では,異なるVEに格納されている情報が相補的であるかどうかを,分析に焦点をあてる。
論文 参考訳(メタデータ) (2022-10-12T16:31:39Z) - Multimodal Adaptive Distillation for Leveraging Unimodal Encoders for
Vision-Language Tasks [118.49566068398642]
視覚言語(VL)タスクのためのクロスモーダルエンコーダは、しばしば注意深く計算された視覚言語データセットで事前訓練される。
一様エンコーダは、コスト抑制の少ない単純なアノテーションで事前訓練され、数十億から数十億のスケールを達成する。
我々は,事前学習したエンコーダから多モードVLエンコーダへの有用な知識を適応的に蒸留するマルチモーダル適応蒸留(MAD)を提案する。
論文 参考訳(メタデータ) (2022-04-22T04:41:04Z) - Scheduled Sampling in Vision-Language Pretraining with Decoupled
Encoder-Decoder Network [99.03895740754402]
本稿では,2つの切り離されたクロスモーダルエンコーダとデコーダが関与するエンコーダ・デコーダ構造の2ストリーム分離設計を提案する。
その代替として,2パス方式でエンコーダデコーダを事前学習することで,そのような不一致を緩和する一次サンプリング戦略を提案する。
論文 参考訳(メタデータ) (2021-01-27T17:36:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。