論文の概要: CAST: Cross-modal Alignment Similarity Test for Vision Language Models
- arxiv url: http://arxiv.org/abs/2409.11007v1
- Date: Tue, 17 Sep 2024 09:14:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 17:18:54.075889
- Title: CAST: Cross-modal Alignment Similarity Test for Vision Language Models
- Title(参考訳): CAST: 視覚言語モデルのためのクロスプラットフォームアライメント類似性テスト
- Authors: Gautier Dagan, Olga Loginova, Anil Batra,
- Abstract要約: 視覚言語モデル(VLM)は通常、視覚質問回答(VQA)タスクで評価される。
本稿では,モダリティ間の自己整合性を求めるために,CAST(Cross-modal Alignment similarity Test)を提案する。
- 参考スコア(独自算出の注目度): 1.679718220022688
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Language Models (VLMs) are typically evaluated with Visual Question Answering (VQA) tasks which assess a model's understanding of scenes. Good VQA performance is taken as evidence that the model will perform well on a broader range of tasks that require both visual and language inputs. However, scene-aware VQA does not fully capture input biases or assess hallucinations caused by a misalignment between modalities. To address this, we propose a Cross-modal Alignment Similarity Test (CAST) to probe VLMs for self-consistency across modalities. This test involves asking the models to identify similarities between two scenes through text-only, image-only, or both and then assess the truthfulness of the similarities they generate. Since there is no ground-truth to compare against, this evaluation does not focus on objective accuracy but rather on whether VLMs are internally consistent in their outputs. We argue that while not all self-consistent models are capable or accurate, all capable VLMs must be self-consistent.
- Abstract(参考訳): 視覚言語モデル(VLM)は通常、モデルのシーンに対する理解を評価する視覚質問回答(VQA)タスクで評価される。
優れたVQAパフォーマンスは、このモデルが視覚と言語の両方の入力を必要とする幅広いタスクでうまく機能することを示す証拠として捉えられている。
しかし、シーン認識型VQAは、入力バイアスを完全に捉えたり、モダリティ間のミスアライメントによって引き起こされる幻覚を評価できない。
そこで本研究では,モダリティ間の自己整合性を求めるために,CAST(Cross-modal Alignment similarity Test)を提案する。
このテストでは、2つのシーン間の類似点をテキストのみ、画像のみ、または両方で識別し、それらが生成する類似点の真偽を評価する。
比較すべき基礎的真実は存在しないため、この評価は客観的な精度ではなく、VLMが内部的に出力に一貫性があるかどうかに重点を置いている。
すべての自己整合モデルが有能あるいは正確であるわけではないが、すべての有能なVLMは自己整合である必要がある。
関連論文リスト
- Trust but Verify: Programmatic VLM Evaluation in the Wild [62.14071929143684]
プログラム型VLM評価(Programmatic VLM Evaluation、PROVE)は、オープンなクエリに対するVLM応答を評価するための新しいベンチマークパラダイムである。
我々は,PROVE上でのVLMの有効性-実効性トレードオフをベンチマークした結果,両者のバランスが良好であることは極めて少ないことがわかった。
論文 参考訳(メタデータ) (2024-10-17T01:19:18Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - DARE: Diverse Visual Question Answering with Robustness Evaluation [16.87867803628065]
視覚言語モデル(VLM)は、テキストのみの大規模言語モデルと視覚のみのモデルの顕著な機能を拡張する。
彼らは数え上げや空間的推論といった重要な視覚言語(VL)推論能力に苦しむ。
本稿では,ロバストネス評価を用いたDARE,Diverse Visual Question Answeringを紹介する。
論文 参考訳(メタデータ) (2024-09-26T16:31:50Z) - VELOCITI: Can Video-Language Models Bind Semantic Concepts through Time? [19.313541287648473]
VELOCITIは、複雑な映像クリップ上に構築された新しいベンチマークで、ビデオ言語モデルにおける知覚とバインディングをテストする。
認識に基づくテストでは、類似のエンティティを共有するビデオキャプションペアを識別する必要があります。
私たちのバインディングテストでは、同じビデオに現れる異なるがもっともらしいエンティティを無視しながら、正しいエンティティを所定の状況に関連付けるモデルが必要です。
論文 参考訳(メタデータ) (2024-06-16T10:42:21Z) - Zero-shot Translation of Attention Patterns in VQA Models to Natural
Language [65.94419474119162]
ZS-A2Tは、トレーニングを必要とせずに、与えられたモデルのトランスフォーマーアテンションを自然言語に変換するフレームワークである。
我々はこれを視覚質問回答(VQA)の文脈で考える。
私たちのフレームワークはトレーニングを一切必要とせず、異なるガイドソースをドロップインで置き換えることができます。
論文 参考訳(メタデータ) (2023-11-08T22:18:53Z) - Can I Trust Your Answer? Visually Grounded Video Question Answering [88.11169242115416]
本稿では,ビデオ言語理解のための事前学習技術を活用したビデオQAについて検討する。
NExT-GQA - NExT-QAの拡張で、10.5$K$の時間的グラウンドラベルを元のQAペアに結び付ける。
論文 参考訳(メタデータ) (2023-09-04T03:06:04Z) - Counterfactual Samples Synthesizing and Training for Robust Visual
Question Answering [59.20766562530209]
VQAモデルは、トレーニングセットにおける表面的な言語的相関をキャプチャする傾向にある。
近年のVQA研究は、ターゲットとなるVQAモデルのトレーニングを規則化する補助的な質問専用モデルを導入している。
本稿では,新しいモデル非依存型対実サンプル合成訓練(CSST)戦略を提案する。
論文 参考訳(メタデータ) (2021-10-03T14:31:46Z) - Counterfactual Samples Synthesizing for Robust Visual Question Answering [104.72828511083519]
モデルに依存しない対実サンプル合成(CSS)トレーニングスキームを提案する。
CSSは、画像や質問の言葉で重要なオブジェクトをマスキングすることで、多数の偽物トレーニングサンプルを生成する。
VQA-CP v2では58.95%,6.5%向上した。
論文 参考訳(メタデータ) (2020-03-14T08:34:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。