Fugu-MT 論文翻訳(概要): CAST: Cross-modal Alignment Similarity Test for Vision Language Models

論文の概要: CAST: Cross-modal Alignment Similarity Test for Vision Language Models

arxiv url: http://arxiv.org/abs/2409.11007v1
Date: Tue, 17 Sep 2024 09:14:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-18 17:18:54.075889
Title: CAST: Cross-modal Alignment Similarity Test for Vision Language Models
Title（参考訳）: CAST: 視覚言語モデルのためのクロスプラットフォームアライメント類似性テスト
Authors: Gautier Dagan, Olga Loginova, Anil Batra,
Abstract要約: 視覚言語モデル(VLM)は通常、視覚質問回答(VQA)タスクで評価される。本稿では,モダリティ間の自己整合性を求めるために,CAST(Cross-modal Alignment similarity Test)を提案する。
参考スコア（独自算出の注目度）: 1.679718220022688
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision Language Models (VLMs) are typically evaluated with Visual Question Answering (VQA) tasks which assess a model's understanding of scenes. Good VQA performance is taken as evidence that the model will perform well on a broader range of tasks that require both visual and language inputs. However, scene-aware VQA does not fully capture input biases or assess hallucinations caused by a misalignment between modalities. To address this, we propose a Cross-modal Alignment Similarity Test (CAST) to probe VLMs for self-consistency across modalities. This test involves asking the models to identify similarities between two scenes through text-only, image-only, or both and then assess the truthfulness of the similarities they generate. Since there is no ground-truth to compare against, this evaluation does not focus on objective accuracy but rather on whether VLMs are internally consistent in their outputs. We argue that while not all self-consistent models are capable or accurate, all capable VLMs must be self-consistent.
Abstract（参考訳）: 視覚言語モデル(VLM)は通常、モデルのシーンに対する理解を評価する視覚質問回答(VQA)タスクで評価される。優れたVQAパフォーマンスは、このモデルが視覚と言語の両方の入力を必要とする幅広いタスクでうまく機能することを示す証拠として捉えられている。しかし、シーン認識型VQAは、入力バイアスを完全に捉えたり、モダリティ間のミスアライメントによって引き起こされる幻覚を評価できない。そこで本研究では,モダリティ間の自己整合性を求めるために,CAST(Cross-modal Alignment similarity Test)を提案する。このテストでは、2つのシーン間の類似点をテキストのみ、画像のみ、または両方で識別し、それらが生成する類似点の真偽を評価する。比較すべき基礎的真実は存在しないため、この評価は客観的な精度ではなく、VLMが内部的に出力に一貫性があるかどうかに重点を置いている。すべての自己整合モデルが有能あるいは正確であるわけではないが、すべての有能なVLMは自己整合である必要がある。

関連論文リスト

VLMs have Tunnel Vision: Evaluating Nonlocal Visual Reasoning in Leading VLMs [18.349695067647012]
ビジュアル言語モデルは、VQAやチャート理解といった複雑なビジュアルタスクに優れていますが、最近の研究は、単純なテストで苦労していることを示唆しています。非局所的な視覚的推論のための視覚言語モデルの能力を評価する。その結果,生の視力の上昇にもかかわらず,現在のモデルでは中心的な視覚的推論能力が欠如していることが判明した。
論文参考訳（メタデータ） (2025-07-04T23:15:52Z)
PairBench: Are Vision-Language Models Reliable at Comparing What They See? [16.49586486795478]
タスクに応じて大規模視覚言語モデル(VLM)を自動評価するためのフレームワークであるPairBenchを提案する。提案手法では,人間アノテーションとの整合性,ペアオーダ間の整合性,分散のスムーズさ,プロンプトによる可制御性という,信頼性の高い比較のための4つの重要な指標を導入している。私たちの分析では、モデルがすべての指標を一貫して上回り、それぞれが異なる強みと弱みを示すことは明らかです。
論文参考訳（メタデータ） (2025-02-21T04:53:11Z)
Probing Visual Language Priors in VLMs [51.016683265437536]
我々は,意図的に分布外画像を特徴付けるベンチマークであるViLPを紹介した。 ViLPの各質問には、3つの潜在的な答えと3つの対応するイメージが結合される。本稿では,モデルが新たなVQAデータを生成し,ピクセルレベルおよびセマンティックな汚職を適用して,自己学習のための「良いバッド」画像ペアを生成する自己改善フレームワークを提案する。
論文参考訳（メタデータ） (2024-12-31T17:54:29Z)
Trust but Verify: Programmatic VLM Evaluation in the Wild [62.14071929143684]
プログラム型VLM評価(Programmatic VLM Evaluation、PROVE)は、オープンなクエリに対するVLM応答を評価するための新しいベンチマークパラダイムである。我々は,PROVE上でのVLMの有効性-実効性トレードオフをベンチマークした結果,両者のバランスが良好であることは極めて少ないことがわかった。
論文参考訳（メタデータ） (2024-10-17T01:19:18Z)
VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。 VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文参考訳（メタデータ） (2024-10-09T17:46:34Z)
DARE: Diverse Visual Question Answering with Robustness Evaluation [16.87867803628065]
視覚言語モデル(VLM)は、テキストのみの大規模言語モデルと視覚のみのモデルの顕著な機能を拡張する。彼らは数え上げや空間的推論といった重要な視覚言語(VL)推論能力に苦しむ。本稿では,ロバストネス評価を用いたDARE,Diverse Visual Question Answeringを紹介する。
論文参考訳（メタデータ） (2024-09-26T16:31:50Z)
VELOCITI: Can Video-Language Models Bind Semantic Concepts through Time? [19.313541287648473]
VELOCITIは、複雑な映像クリップ上に構築された新しいベンチマークで、ビデオ言語モデルにおける知覚とバインディングをテストする。認識に基づくテストでは、類似のエンティティを共有するビデオキャプションペアを識別する必要があります。私たちのバインディングテストでは、同じビデオに現れる異なるがもっともらしいエンティティを無視しながら、正しいエンティティを所定の状況に関連付けるモデルが必要です。
論文参考訳（メタデータ） (2024-06-16T10:42:21Z)
Zero-shot Translation of Attention Patterns in VQA Models to Natural Language [65.94419474119162]
ZS-A2Tは、トレーニングを必要とせずに、与えられたモデルのトランスフォーマーアテンションを自然言語に変換するフレームワークである。我々はこれを視覚質問回答(VQA)の文脈で考える。私たちのフレームワークはトレーニングを一切必要とせず、異なるガイドソースをドロップインで置き換えることができます。
論文参考訳（メタデータ） (2023-11-08T22:18:53Z)
Can I Trust Your Answer? Visually Grounded Video Question Answering [88.11169242115416]
本稿では,ビデオ言語理解のための事前学習技術を活用したビデオQAについて検討する。 NExT-GQA - NExT-QAの拡張で、10.5$K$の時間的グラウンドラベルを元のQAペアに結び付ける。
論文参考訳（メタデータ） (2023-09-04T03:06:04Z)
Counterfactual Samples Synthesizing and Training for Robust Visual Question Answering [59.20766562530209]
VQAモデルは、トレーニングセットにおける表面的な言語的相関をキャプチャする傾向にある。近年のVQA研究は、ターゲットとなるVQAモデルのトレーニングを規則化する補助的な質問専用モデルを導入している。本稿では,新しいモデル非依存型対実サンプル合成訓練(CSST)戦略を提案する。
論文参考訳（メタデータ） (2021-10-03T14:31:46Z)
Counterfactual Samples Synthesizing for Robust Visual Question Answering [104.72828511083519]
モデルに依存しない対実サンプル合成(CSS)トレーニングスキームを提案する。 CSSは、画像や質問の言葉で重要なオブジェクトをマスキングすることで、多数の偽物トレーニングサンプルを生成する。 VQA-CP v2では58.95%,6.5%向上した。
論文参考訳（メタデータ） (2020-03-14T08:34:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。