論文の概要: Detect, Describe, Discriminate: Moving Beyond VQA for MLLM Evaluation
- arxiv url: http://arxiv.org/abs/2409.15125v1
- Date: Mon, 23 Sep 2024 15:31:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 14:23:12.755671
- Title: Detect, Describe, Discriminate: Moving Beyond VQA for MLLM Evaluation
- Title(参考訳): MLLM評価のためのVQAを超えて、検出、記述、識別
- Authors: Manu Gaur, Darshan Singh S, Makarand Tapaswi,
- Abstract要約: 2つの非常に類似した画像を一意に記述する能力により、MLLMが特定の視覚概念をいかによく理解するかを評価する。
D3ベンチマークの一部として247枚の非常に類似した画像ペアをキュレートする。
各画像対について、(1)特定の視覚的差を検知し、(2)目的画像を独自に記述し、(3)対象画像を障害者から識別する。
- 参考スコア(独自算出の注目度): 13.311411816150551
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Visual Question Answering (VQA) with multiple choice questions enables a vision-centric evaluation of Multimodal Large Language Models (MLLMs). Although it reliably checks the existence of specific visual abilities, it is easier for the model to select an answer from multiple choices (VQA evaluation) than to generate the answer itself. In this work, we offer a novel perspective: we evaluate how well an MLLM understands a specific visual concept by its ability to uniquely describe two extremely similar images that differ only in the targeted visual concept. Specifically, we assess the ability of MLLMs to capture specific points of visual differences using self-retrieval, i.e., by retrieving the target image using its generated caption against the other image in the pair serving as the distractor. We curate 247 highly similar image pairs as part of the D3 benchmark. For each image pair, the model is prompted to: (1) Detect a specific visual difference, and (2) Describe the target image uniquely such that it (3) Discriminates the target image from the distractor. Self-retrieval within D3 enables whitebox evaluation across six different visual patterns, revealing that current models struggle to independently discern fine-grained visual differences, with open-source models failing to outperform random guess.
- Abstract(参考訳): VQA(Visual Question Answering)は、マルチモーダル大言語モデル(MLLM)の視覚中心の評価を可能にする。
特定の視覚能力の存在を確実にチェックするが、モデルが複数の選択(VQA評価)から答えを選択するのは、その答えそのものを生成するよりも容易である。
本研究では,MLLMが対象の視覚概念にのみ異なる2つの非常に類似したイメージを一意に記述する能力によって,特定の視覚概念をいかに理解するかを評価する。
具体的には,MLLMが自己検索を用いて視覚的差異の特定の点を捉える能力を評価する。
D3ベンチマークの一部として247枚の非常に類似した画像ペアをキュレートする。
各画像対について、(1)特定の視覚的差異を検知し、(2)目的画像を個別に記述し、(3)対象画像を障害者から識別する。
D3内の自己検索により、6つの異なる視覚パターンのホワイトボックス評価が可能となり、現在のモデルでは微妙な視覚的差異を独立に識別するのに苦労しており、オープンソースのモデルはランダムな推測を上回りません。
関連論文リスト
- Matryoshka Multimodal Models [92.41824727506751]
我々はM3: Matryoshka Multimodal Modelsを提案する。
COCOスタイルのベンチマークでは,576個のトークンを使用する場合と同様の精度を得るために,9個のビジュアルトークンしか必要としないことがわかった。
論文 参考訳(メタデータ) (2024-05-27T17:59:56Z) - PEVA-Net: Prompt-Enhanced View Aggregation Network for Zero/Few-Shot Multi-View 3D Shape Recognition [8.15444057380305]
我々は、ゼロ/フェーショットの3D形状認識に対処するために、大きな視覚言語モデルであるCLIPを活用することに重点を置いている。
本稿では,0/fwショット3D形状認識を同時に行うために,Prompt-Enhanced View Aggregation Network (PEVA-Net)を提案する。
論文 参考訳(メタデータ) (2024-04-30T00:16:59Z) - Q-Bench+: A Benchmark for Multi-modal Foundation Models on Low-level Vision from Single Images to Pairs [71.07108539262721]
低レベルの視覚に関連する人間の言語応答をエミュレートするためのベンチマーク設定を設計する。
我々は,MLLMの低レベルの認識関連質問応答と記述評価を,単一画像から画像ペアへ拡張する。
複数のMLLMが単一の画像に対して十分な低レベルの視覚能力を持つことを示したが、GPT-4Vのみが人間よりも高い精度で比較できる。
論文 参考訳(メタデータ) (2024-02-11T06:44:11Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - LOIS: Looking Out of Instance Semantics for Visual Question Answering [17.076621453814926]
画像中のオブジェクトの意味論の因果関係を理解するために,ボックス境界のないモデルフレームワークを提案する。
我々は、インスタンスオブジェクトと背景情報の間のより洗練された、より深い視覚的意味関係をモデル化するための相互関係注意モジュールを実装した。
提案するアテンションモデルにより,重要な単語関連質問に焦点をあてることで,より健全な画像領域を解析することができる。
論文 参考訳(メタデータ) (2023-07-26T12:13:00Z) - Zero-shot Model Diagnosis [80.36063332820568]
ディープラーニングモデルを評価するための一般的なアプローチは、興味のある属性を持つラベル付きテストセットを構築し、そのパフォーマンスを評価することである。
本稿では,ゼロショットモデル診断(ZOOM)がテストセットやラベル付けを必要とせずに可能であることを論じる。
論文 参考訳(メタデータ) (2023-03-27T17:59:33Z) - Blind Image Quality Assessment via Vision-Language Correspondence: A
Multitask Learning Perspective [93.56647950778357]
ブラインド画像品質評価(BIQA)は、参照情報なしで画像品質の人間の知覚を予測する。
我々は,他のタスクからの補助的知識を活用するために,BIQAのための汎用的かつ自動化されたマルチタスク学習手法を開発した。
論文 参考訳(メタデータ) (2023-03-27T07:58:09Z) - MERLOT: Multimodal Neural Script Knowledge Models [74.05631672657452]
我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。
MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。
Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。
論文 参考訳(メタデータ) (2021-06-04T17:57:39Z) - Analysis on Image Set Visual Question Answering [0.3359875577705538]
マルチイメージ環境での視覚質問応答の課題に対処する。
従来のVQAタスクは、単一のイメージからターゲットの回答が生成される単一イメージ設定に重点を置いている。
本報告では,タスクのパフォーマンス向上を目的とした4つのアプローチについて検討する。
論文 参考訳(メタデータ) (2021-03-31T20:47:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。