論文の概要: Do Vision & Language Decoders use Images and Text equally? How Self-consistent are their Explanations?
- arxiv url: http://arxiv.org/abs/2404.18624v2
- Date: Mon, 10 Jun 2024 10:43:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 00:14:44.082388
- Title: Do Vision & Language Decoders use Images and Text equally? How Self-consistent are their Explanations?
- Title(参考訳): ビジョン・アンド・ランゲージ・デコーダは画像とテキストを等しく使用するか?
- Authors: Letitia Parcalabescu, Anette Frank,
- Abstract要約: 視覚と言語モデル(VLM)デコーダは、マルチモーダルタスクにおける最も優れたアーキテクチャである。
予測や説明を生成する際に、視覚とテキストのモダリティがどの程度使われるかは明らかになっていない。
- 参考スコア(独自算出の注目度): 22.37545779269458
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision and language model (VLM) decoders are currently the best-performing architectures on multimodal tasks. Next to predictions, they can also produce explanations, either in post-hoc or CoT settings. However, it is not clear how much they use the vision and text modalities when generating predictions or explanations. In this work, we investigate if VLMs rely on modalities differently when they produce explanations as opposed to providing answers. We also evaluate the self-consistency of VLM decoders in both post-hoc and CoT explanation settings, by extending existing unimodal tests and measures to VLM decoders. We find that VLMs are less self-consistent than LLMs. Text contributions in VL decoders are more important than image contributions in all examined tasks. Moreover, the contributions of images are significantly stronger for explanation generation compared to answer generation. This difference is even larger in CoT compared to post-hoc explanations. Lastly, we provide an up-to-date benchmarking of state-of-the-art VL decoders on the VALSE benchmark, which before only covered VL encoders. We find that VL decoders still struggle with most phenomena tested by VALSE.
- Abstract(参考訳): 視覚と言語モデル(VLM)デコーダは現在、マルチモーダルタスクにおける最高のパフォーマンスのアーキテクチャである。
予測の次は、ポストホックまたはCoT設定でも説明を生成することができる。
しかし、予測や説明を生成する際に、視覚とテキストのモダリティがどの程度使われるかは明らかになっていない。
本研究は,VLMが回答を提供するのとは対照的に説明を生成する場合,モダリティに依存するかどうかを考察する。
また,VLMデコーダの自己整合性を評価するために,既存の単調なテストと測定値をVLMデコーダに拡張することで,ポストホックおよびCoT説明設定におけるVLMデコーダの自己整合性を評価する。
VLM は LLM よりも自己整合性が低いことがわかった。
VLデコーダにおけるテキストコントリビューションは、すべての検査作業における画像コントリビューションよりも重要である。
さらに、画像のコントリビューションは、回答生成と比較して説明生成において著しく強い。
この違いは、ポストホックな説明に比べ、CoTではさらに大きい。
最後に,最新のVLデコーダのベンチマークをVALSEベンチマークで提供する。
VLデコーダは、VALSEによってテストされたほとんどの現象に依然として苦戦している。
関連論文リスト
- Response Wide Shut: Surprising Observations in Basic Vision Language Model Capabilities [30.176918208200604]
VLM(Vision-Language Models)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
これらのモデルは高い能力を持つが、いくつかの基本的な視覚的理解スキルが欠けていることが示されている。
本稿では,基本的な視覚課題におけるSoTA VLMの限界を理解することを目的とする。
論文 参考訳(メタデータ) (2024-08-13T08:26:32Z) - How Well Can Vision Language Models See Image Details? [53.036922527685064]
視覚言語モデルはどのようにして画像の詳細を見ることができるのか」を探求するために画素値予測タスクを導入する。
我々の研究は、VLM事前学習タスクと視覚エンコーダ適応の1つとして画素値予測を組み込むことで、下流画像言語理解タスクにおけるVLM性能が著しく向上することを明らかにする。
論文 参考訳(メタデータ) (2024-08-07T17:59:40Z) - Unveiling Encoder-Free Vision-Language Models [62.52803514667452]
既存の視覚言語モデル (VLM) は主に視覚的特徴を抽出するために視覚エンコーダに依存しており、視覚言語タスクには大きな言語モデル (LLM) が続く。
エンコーダベースモデルとエンコーダフリーモデルとのギャップを橋渡しし、純粋なVLMに対するシンプルで効果的なトレーニングレシピを示す。
EVEはエンコーダなしの視覚言語モデルで、効率的にトレーニングと転送ができる。
論文 参考訳(メタデータ) (2024-06-17T17:59:44Z) - BRAVE: Broadening the visual encoding of vision-language models [48.41146184575914]
視覚言語モデル(VLM)は、例えばCLIPのような視覚エンコーダと、下流タスクを解決するために符号化された特徴を解釈する言語モデル(LM)で構成されている。
目覚しい進歩にもかかわらず、VLMは視覚エンコーダの限られた能力のためにいくつかの欠点に直面している。
BRAVEは,複数の凍結エンコーダの特徴をより汎用的な表現に集約し,凍結したLMへの入力として直接供給することができる。
論文 参考訳(メタデータ) (2024-04-10T17:59:45Z) - One does not fit all! On the Complementarity of Vision Encoders for
Vision and Language Tasks [59.49639580525051]
マルチモーダルモデルはビジョン・アンド・ランゲージ(V+L)タスクの解決を目的としている。
現在の研究は、テキスタイルの事前訓練されたVEが汎用エンコーダとして機能すると仮定している。
本研究では,異なるVEに格納されている情報が相補的であるかどうかを,分析に焦点をあてる。
論文 参考訳(メタデータ) (2022-10-12T16:31:39Z) - Multimodal Adaptive Distillation for Leveraging Unimodal Encoders for
Vision-Language Tasks [118.49566068398642]
視覚言語(VL)タスクのためのクロスモーダルエンコーダは、しばしば注意深く計算された視覚言語データセットで事前訓練される。
一様エンコーダは、コスト抑制の少ない単純なアノテーションで事前訓練され、数十億から数十億のスケールを達成する。
我々は,事前学習したエンコーダから多モードVLエンコーダへの有用な知識を適応的に蒸留するマルチモーダル適応蒸留(MAD)を提案する。
論文 参考訳(メタデータ) (2022-04-22T04:41:04Z) - Scheduled Sampling in Vision-Language Pretraining with Decoupled
Encoder-Decoder Network [99.03895740754402]
本稿では,2つの切り離されたクロスモーダルエンコーダとデコーダが関与するエンコーダ・デコーダ構造の2ストリーム分離設計を提案する。
その代替として,2パス方式でエンコーダデコーダを事前学習することで,そのような不一致を緩和する一次サンプリング戦略を提案する。
論文 参考訳(メタデータ) (2021-01-27T17:36:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。