論文の概要: SimpleVQA: Multimodal Factuality Evaluation for Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2502.13059v1
- Date: Tue, 18 Feb 2025 17:04:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:02:33.883754
- Title: SimpleVQA: Multimodal Factuality Evaluation for Multimodal Large Language Models
- Title(参考訳): SimpleVQA:マルチモーダル大言語モデルのためのマルチモーダル・ファクティリティ評価
- Authors: Xianfu Cheng, Wei Zhang, Shiwei Zhang, Jian Yang, Xiangyuan Guan, Xianjie Wu, Xiang Li, Ge Zhang, Jiaheng Liu, Yuying Mai, Yutao Zeng, Zhoufutu Wen, Ke Jin, Baorui Wang, Weixiao Zhou, Yunhong Lu, Tongliang Li, Wenhao Huang, Zhoujun Li,
- Abstract要約: 我々は,MLLMが自然言語の短い質問に答える事実性を評価するための,最初の総合的なベンチマークであるSimpleVQAを紹介する。
SimpleVQAは、複数のタスクと複数のシナリオをカバーすること、高品質で挑戦的なクエリを保証すること、静的でタイムレスな参照回答を維持すること、そして評価しやすいこと、の6つの重要な特徴によって特徴付けられる。
- 参考スコア(独自算出の注目度): 38.739880143262845
- License:
- Abstract: The increasing application of multi-modal large language models (MLLMs) across various sectors have spotlighted the essence of their output reliability and accuracy, particularly their ability to produce content grounded in factual information (e.g. common and domain-specific knowledge). In this work, we introduce SimpleVQA, the first comprehensive multi-modal benchmark to evaluate the factuality ability of MLLMs to answer natural language short questions. SimpleVQA is characterized by six key features: it covers multiple tasks and multiple scenarios, ensures high quality and challenging queries, maintains static and timeless reference answers, and is straightforward to evaluate. Our approach involves categorizing visual question-answering items into 9 different tasks around objective events or common knowledge and situating these within 9 topics. Rigorous quality control processes are implemented to guarantee high-quality, concise, and clear answers, facilitating evaluation with minimal variance via an LLM-as-a-judge scoring system. Using SimpleVQA, we perform a comprehensive assessment of leading 18 MLLMs and 8 text-only LLMs, delving into their image comprehension and text generation abilities by identifying and analyzing error cases.
- Abstract(参考訳): 様々な分野にわたるMLLM(Multi-modal large language model)の適用が増加し、その出力の信頼性と正確性、特に事実情報(例えば、共通知識とドメイン固有知識)に根ざしたコンテンツを生成する能力の本質が浮かび上がっている。
本稿では,MLLMが自然言語の短い質問に答える事実性を評価するための,最初の総合的マルチモーダルベンチマークであるSimpleVQAを紹介する。
SimpleVQAは、複数のタスクと複数のシナリオをカバーすること、高品質で挑戦的なクエリを保証すること、静的でタイムレスな参照回答を維持すること、そして評価しやすいこと、の6つの重要な特徴によって特徴付けられる。
我々のアプローチでは、視覚的質問回答項目を、客観的事象や共通知識に関する9つの異なるタスクに分類し、これらを9つのトピックに分類する。
厳密な品質管理プロセスは、高品質で簡潔で明確な回答を保証するために実装され、LCM-as-a-judgeスコアシステムによる最小分散による評価を容易にする。
SimpleVQAを用いて、18個のMLLMと8個のテキストのみのLLMを総合的に評価し、画像理解能力とテキスト生成能力を検証し、エラー事例を特定し解析する。
関連論文リスト
- Understanding the Role of LLMs in Multimodal Evaluation Benchmarks [77.59035801244278]
本稿では,MLLM評価におけるLarge Language Model (LLM)バックボーンの役割について検討する。
本研究は4つのMLLMベンチマークと8つの最先端MLLMベンチマークを含む。
鍵となる発見は、いくつかのベンチマークでは視覚的な入力がなくても高いパフォーマンスを実現しており、最大50%のエラーレートは、LLMバックボーンにおける不十分な世界的知識に起因していることを示している。
論文 参考訳(メタデータ) (2024-10-16T07:49:13Z) - LRQ-Fact: LLM-Generated Relevant Questions for Multimodal Fact-Checking [14.647261841209767]
マルチモーダルなファクトチェックのための完全自動フレームワークLRQ-Factを提案する。
マルチモーダルコンテンツを探索するための総合的な質問や回答を生成する。
そして、元のコンテンツと生成された質問と回答の両方を評価し、全体的な妥当性を評価する。
論文 参考訳(メタデータ) (2024-10-06T20:33:22Z) - Needle In A Multimodal Haystack [79.81804334634408]
本稿では,従来のMLLMの長大なマルチモーダル文書の理解能力を評価するために設計された,最初のベンチマークを示す。
我々のベンチマークには、マルチモーダル検索、カウント、推論の3種類の評価タスクが含まれている。
既存のモデルには、これらのタスク、特に視覚中心の評価において、改善の余地がまだ残っていることを観察する。
論文 参考訳(メタデータ) (2024-06-11T13:09:16Z) - MultiTrust: A Comprehensive Benchmark Towards Trustworthy Multimodal Large Language Models [51.19622266249408]
MultiTrustはMLLMの信頼性に関する最初の総合的で統一されたベンチマークである。
我々のベンチマークでは、マルチモーダルリスクとクロスモーダルインパクトの両方に対処する厳格な評価戦略を採用している。
21の近代MLLMによる大規模な実験は、これまで調査されなかった信頼性の問題とリスクを明らかにしている。
論文 参考訳(メタデータ) (2024-06-11T08:38:13Z) - ChEF: A Comprehensive Evaluation Framework for Standardized Assessment
of Multimodal Large Language Models [49.48109472893714]
MLLM(Multimodal Large Language Models)は、視覚コンテンツと無数の下流タスクとを相互作用する優れた能力を示す。
本稿では,各MLLMを全体プロファイルし,異なるMLLMを比較した最初の総合評価フレームワーク(ChEF)を提案する。
詳細な実装をすべて公開して、さらなる分析と、新しいレシピやモデルを統合するための使い易いモジュラーツールキットを提供します。
論文 参考訳(メタデータ) (2023-11-05T16:01:40Z) - MM-BigBench: Evaluating Multimodal Models on Multimodal Content
Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。
本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文 参考訳(メタデータ) (2023-10-13T11:57:04Z) - On the Performance of Multimodal Language Models [4.677125897916577]
本研究は、異なるマルチモーダル命令チューニングアプローチの比較分析を行う。
大規模言語モデルにマルチモーダル機能を組み込む際に,アーキテクチャ選択を導く上で重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2023-10-04T23:33:36Z) - Sight Beyond Text: Multi-Modal Training Enhances LLMs in Truthfulness
and Ethics [32.123919380959485]
MLLM(Multi-modal large language model)は、大規模言語モデル(LLM)に基づいて訓練される。
マルチモーダルなタスクでは優れているが、MLLMの純粋なNLP能力はしばしば過小評価され、テストされていない。
LLMをMLLMに移行するための一般的な戦略である視覚的インストラクションチューニングは、予期せぬ、興味深いことに、改善された真理性と倫理的整合性の両方を達成するのに役立ちます。
論文 参考訳(メタデータ) (2023-09-13T17:57:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。