論文の概要: TUBench: Benchmarking Large Vision-Language Models on Trustworthiness with Unanswerable Questions
- arxiv url: http://arxiv.org/abs/2410.04107v1
- Date: Sat, 5 Oct 2024 10:23:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 14:11:12.970829
- Title: TUBench: Benchmarking Large Vision-Language Models on Trustworthiness with Unanswerable Questions
- Title(参考訳): TUBench:疑わしい質問による信頼度に関する大規模ビジョンランゲージモデルのベンチマーク
- Authors: Xingwei He, Qianru Zhang, A-Long Jin, Yuan Yuan, Siu-Ming Yiu,
- Abstract要約: LVLM(Large Vision-Language Models)は、視覚知覚と言語解釈において顕著な進歩を遂げている。
LVLMはいまだに幻覚の問題に悩まされており、視覚的またはテキスト的入力に不正確で不誠実なコンテンツを生成する。
MMEやPOPEといった従来のベンチマークは、答え可能な質問を用いてLVLMの幻覚を評価する。
本稿では,LVLMの信頼性を評価するためのベンチマークであるTUBenchを提案する。
- 参考スコア(独自算出の注目度): 14.459170441851706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) have achieved remarkable progress on visual perception and linguistic interpretation. Despite their impressive capabilities across various tasks, LVLMs still suffer from the issue of hallucination, which involves generating content that is incorrect or unfaithful to the visual or textual inputs. Traditional benchmarks, such as MME and POPE, evaluate hallucination in LVLMs within the scope of Visual Question Answering (VQA) using answerable questions. However, some questions are unanswerable due to insufficient information in the images, and the performance of LVLMs on such unanswerable questions remains underexplored. To bridge this research gap, we propose TUBench, a benchmark specifically designed to evaluate the reliability of LVLMs using unanswerable questions. TUBench comprises an extensive collection of high-quality, unanswerable questions that are meticulously crafted using ten distinct strategies. To thoroughly evaluate LVLMs, the unanswerable questions in TUBench are based on images from four diverse domains as visual contexts: screenshots of code snippets, natural images, geometry diagrams, and screenshots of statistical tables. These unanswerable questions are tailored to test LVLMs' trustworthiness in code reasoning, commonsense reasoning, geometric reasoning, and mathematical reasoning related to tables, respectively. We conducted a comprehensive quantitative evaluation of 28 leading foundational models on TUBench, with Gemini-1.5-Pro, the top-performing model, achieving an average accuracy of 69.2%, and GPT-4o, the third-ranked model, reaching 66.7% average accuracy, in determining whether questions are answerable. TUBench is available at https://github.com/NLPCode/TUBench.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、視覚知覚と言語解釈において顕著な進歩を遂げている。
様々なタスクにまたがる印象的な能力にもかかわらず、LVLMは今でも幻覚の問題に悩まされている。
MMEやPOPEといった従来のベンチマークでは、答え可能な質問を用いて視覚質問回答(VQA)の範囲内でLVLMの幻覚を評価する。
しかし、画像に不足があるため、いくつかの疑問は解決不可能であり、そのような疑問に対するLVLMの性能は未解明のままである。
この研究ギャップを埋めるため,不解な質問を用いてLVLMの信頼性を評価するためのベンチマークであるTUBenchを提案する。
TUBenchは、10つの異なる戦略を使って細心の注意を払って構築される、高品質で疑わしい質問の広範なコレクションで構成されている。
LVLMを徹底的に評価するために、TUBenchの解決不可能な質問は、コードスニペットのスクリーンショット、自然画像、幾何学図、統計テーブルのスクリーンショットの4つの異なる領域の画像に基づいている。
これらの疑問は、LVLMsのコード推論、コモンセンス推論、幾何学的推論、およびテーブルに関する数学的推論の信頼性をテストするのに適したものである。
TUBenchでは,トップパフォーマンスモデルであるGemini-1.5-Proが69.2%,第3ランクモデルであるGPT-4oが66.7%,回答可能な質問が66.7%であった。
TUBenchはhttps://github.com/NLPCode/TUBench.comで入手できる。
関連論文リスト
- AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? [55.14033256706175]
視覚・言語情報の統合を促進するためには,LVLM(Large Vision-Language Models)が不可欠である。
本稿では,需要評価のための自動フレームワークであるAutoBench-Vを紹介する。
5つの要求されたユーザ入力にまたがる7つのLVLMの広範な評価を通じて、このフレームワークの有効性と信頼性を示す。
論文 参考訳(メタデータ) (2024-10-28T17:55:08Z) - TVBench: Redesigning Video-Language Evaluation [48.71203934876828]
現在最も使われているビデオ言語ベンチマークは、時間的推論を必要とせずに解決可能であることを示す。
提案するTVBenchは,オープンソースのマルチ選択質問応答ベンチマークである。
論文 参考訳(メタデータ) (2024-10-10T09:28:36Z) - Revisiting Multi-Modal LLM Evaluation [29.094387692681337]
我々は,最近のMLLM(LLaVA 1.5, LLaVA-NeXT, BLIP2, InstructBLIP, GPT-4V, GPT-4o)を,以前のMLLMの弱点に対処するためのデータセット上で評価した。
我々のコードはMLLM評価のために広く使われているLAVISフレームワークに統合されており、将来のMLLMの迅速な評価を可能にしている。
論文 参考訳(メタデータ) (2024-08-09T20:55:46Z) - Seeing Clearly, Answering Incorrectly: A Multimodal Robustness Benchmark for Evaluating MLLMs on Leading Questions [6.41245355860746]
ほとんどの評価ベンチマークは、誤った答えは視覚的内容の理解の欠如を示していると仮定している。
その結果,MLLMは視覚的内容が正しく理解されているにもかかわらず,誤解答をすることが多いことがわかった。
このことは、誤った答えは必ずしも理解の欠如を示唆するものではなく、むしろ主要な質問に対する堅牢性の欠如に起因する可能性があることを示唆している。
論文 参考訳(メタデータ) (2024-06-15T13:58:26Z) - MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems? [99.0305256706604]
MLLMの公平かつ詳細な評価のために設計された全周視覚数学ベンチマークであるMathVerseを紹介する。
我々は,2,612の高品位・多目的数学問題を,公開情報源の図を用いて慎重に収集する。
このアプローチにより、MathVerseは、数学的推論のためのビジュアルダイアグラムを、どの程度のMLLMが真に理解できるかを包括的に評価することができる。
論文 参考訳(メタデータ) (2024-03-21T17:59:50Z) - Q-Bench+: A Benchmark for Multi-modal Foundation Models on Low-level Vision from Single Images to Pairs [71.07108539262721]
低レベルの視覚に関連する人間の言語応答をエミュレートするためのベンチマーク設定を設計する。
我々は,MLLMの低レベルの認識関連質問応答と記述評価を,単一画像から画像ペアへ拡張する。
複数のMLLMが単一の画像に対して十分な低レベルの視覚能力を持つことを示したが、GPT-4Vのみが人間よりも高い精度で比較できる。
論文 参考訳(メタデータ) (2024-02-11T06:44:11Z) - Improving Zero-shot Visual Question Answering via Large Language Models
with Reasoning Question Prompts [22.669502403623166]
本稿では,VQAタスクに対する推論質問プロンプトを提案する。
自己完結した質問は、教師なし質問セットモジュールを介して推論された質問プロンプトとして生成する。
各推論質問は、元の質問の意図を明確に示す。
そして、回答整合性として働く信頼度スコアに関連する候補回答をLSMに入力する。
論文 参考訳(メタデータ) (2023-11-15T15:40:46Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - LVLM-eHub: A Comprehensive Evaluation Benchmark for Large
Vision-Language Models [55.304181390027274]
本稿では,LVLM評価ハブ(LVLM-eHub)の構築により,一般公開された大規模マルチモーダルモデルの包括的評価を行う。
我々のLVLM-eHubは、InstructBLIPやMiniGPT-4などの代表的LVLMから成り、定量的能力評価とオンラインアリーナプラットフォームによって徹底的に評価されている。
この研究は、いくつかの革新的な発見を明らかにしている。まず、インストラクタBLIPのような膨大なドメイン内データを持つ命令調整型LVLMは、多くの既存のタスクを過度にオーバーフィットさせ、オープンワールドのシナリオでは一般化が不十分である。
論文 参考訳(メタデータ) (2023-06-15T16:39:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。