論文の概要: Do Vision & Language Decoders use Images and Text equally? How Self-consistent are their Explanations?
- arxiv url: http://arxiv.org/abs/2404.18624v3
- Date: Sun, 08 Dec 2024 13:51:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:52:04.775791
- Title: Do Vision & Language Decoders use Images and Text equally? How Self-consistent are their Explanations?
- Title(参考訳): ビジョン・アンド・ランゲージ・デコーダは画像とテキストを等しく使用するか?
- Authors: Letitia Parcalabescu, Anette Frank,
- Abstract要約: 視覚と言語モデル(VLM)デコーダは、マルチモーダルタスクにおける最も優れたアーキテクチャである。
回答や説明を生成する際に、入力視覚とテキストのモダリティがどの程度使われているかは明らかになっていない。
- 参考スコア(独自算出の注目度): 22.37545779269458
- License:
- Abstract: Vision and language model (VLM) decoders are currently the best-performing architectures on multimodal tasks. Next to answers, they are able to produce natural language explanations, either in post-hoc or CoT settings. However, it is not clear to what extent they are using the input vision and text modalities when generating answers or explanations. In this work, we investigate if VLMs rely on their input modalities differently when they produce explanations as opposed to answers. We also evaluate the self-consistency of VLM decoders in both post-hoc and CoT explanation settings, by extending existing unimodal tests and measures to VLM decoders. We find that most tested VLMs are less self-consistent than LLMs. Text contributions in all tested VL decoders are more important than image contributions in all examined tasks. However, when comparing explanation generation to answer generation, the contributions of images are significantly stronger for generating explanations compared to answers. This difference is even larger in CoT compared to post-hoc explanations. Lastly, we provide an up-to-date benchmarking of state-of-the-art VL decoders on the VALSE benchmark, which before was restricted to VL encoders. We find that the tested VL decoders still struggle with most phenomena tested by VALSE.
- Abstract(参考訳): 視覚と言語モデル(VLM)デコーダは現在、マルチモーダルタスクにおける最高のパフォーマンスのアーキテクチャである。
回答の次は、ポストホックまたはCoT設定で自然言語の説明を生成することができる。
しかし、回答や説明を生成する際に、入力視覚とテキストのモダリティがどの程度使われているかは明らかになっていない。
本研究は,VLMが解答ではなく説明を生成する場合,入力のモーダル性が異なるかどうかを考察する。
また,VLMデコーダの自己整合性を評価するために,既存の単調なテストと測定値をVLMデコーダに拡張することで,ポストホックおよびCoT説明設定におけるVLMデコーダの自己整合性を評価する。
その結果、ほとんどのVLMはLPMよりも自己整合性が低いことがわかった。
テストされたVLデコーダのテキストコントリビューションは、すべての検査タスクにおける画像コントリビューションよりも重要である。
しかし、説明生成と回答生成を比較する場合、画像のコントリビューションは、回答よりも説明を生成するために著しく強くなる。
この違いは、ポストホックな説明に比べ、CoTではさらに大きい。
最後に、VALSEベンチマークでは、VLエンコーダに制限されていた最先端のVLデコーダの最新のベンチマークを提供する。
テスト対象のVLデコーダは,VALSEによってテストされたほとんどの現象と相容れないことがわかった。
関連論文リスト
- Response Wide Shut: Surprising Observations in Basic Vision Language Model Capabilities [30.176918208200604]
VLM(Vision-Language Models)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
これらのモデルは高い能力を持つが、いくつかの基本的な視覚的理解スキルが欠けていることが示されている。
本稿では,基本的な視覚課題におけるSoTA VLMの限界を理解することを目的とする。
論文 参考訳(メタデータ) (2024-08-13T08:26:32Z) - How Well Can Vision Language Models See Image Details? [53.036922527685064]
視覚言語モデルはどのようにして画像の詳細を見ることができるのか」を探求するために画素値予測タスクを導入する。
我々の研究は、VLM事前学習タスクと視覚エンコーダ適応の1つとして画素値予測を組み込むことで、下流画像言語理解タスクにおけるVLM性能が著しく向上することを明らかにする。
論文 参考訳(メタデータ) (2024-08-07T17:59:40Z) - Unveiling Encoder-Free Vision-Language Models [62.52803514667452]
既存の視覚言語モデル (VLM) は主に視覚的特徴を抽出するために視覚エンコーダに依存しており、視覚言語タスクには大きな言語モデル (LLM) が続く。
エンコーダベースモデルとエンコーダフリーモデルとのギャップを橋渡しし、純粋なVLMに対するシンプルで効果的なトレーニングレシピを示す。
EVEはエンコーダなしの視覚言語モデルで、効率的にトレーニングと転送ができる。
論文 参考訳(メタデータ) (2024-06-17T17:59:44Z) - BRAVE: Broadening the visual encoding of vision-language models [48.41146184575914]
視覚言語モデル(VLM)は、例えばCLIPのような視覚エンコーダと、下流タスクを解決するために符号化された特徴を解釈する言語モデル(LM)で構成されている。
目覚しい進歩にもかかわらず、VLMは視覚エンコーダの限られた能力のためにいくつかの欠点に直面している。
BRAVEは,複数の凍結エンコーダの特徴をより汎用的な表現に集約し,凍結したLMへの入力として直接供給することができる。
論文 参考訳(メタデータ) (2024-04-10T17:59:45Z) - One does not fit all! On the Complementarity of Vision Encoders for
Vision and Language Tasks [59.49639580525051]
マルチモーダルモデルはビジョン・アンド・ランゲージ(V+L)タスクの解決を目的としている。
現在の研究は、テキスタイルの事前訓練されたVEが汎用エンコーダとして機能すると仮定している。
本研究では,異なるVEに格納されている情報が相補的であるかどうかを,分析に焦点をあてる。
論文 参考訳(メタデータ) (2022-10-12T16:31:39Z) - Multimodal Adaptive Distillation for Leveraging Unimodal Encoders for
Vision-Language Tasks [118.49566068398642]
視覚言語(VL)タスクのためのクロスモーダルエンコーダは、しばしば注意深く計算された視覚言語データセットで事前訓練される。
一様エンコーダは、コスト抑制の少ない単純なアノテーションで事前訓練され、数十億から数十億のスケールを達成する。
我々は,事前学習したエンコーダから多モードVLエンコーダへの有用な知識を適応的に蒸留するマルチモーダル適応蒸留(MAD)を提案する。
論文 参考訳(メタデータ) (2022-04-22T04:41:04Z) - Scheduled Sampling in Vision-Language Pretraining with Decoupled
Encoder-Decoder Network [99.03895740754402]
本稿では,2つの切り離されたクロスモーダルエンコーダとデコーダが関与するエンコーダ・デコーダ構造の2ストリーム分離設計を提案する。
その代替として,2パス方式でエンコーダデコーダを事前学習することで,そのような不一致を緩和する一次サンプリング戦略を提案する。
論文 参考訳(メタデータ) (2021-01-27T17:36:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。