論文の概要: MFC-Bench: Benchmarking Multimodal Fact-Checking with Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2406.11288v1
- Date: Mon, 17 Jun 2024 07:51:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 15:50:52.749654
- Title: MFC-Bench: Benchmarking Multimodal Fact-Checking with Large Vision-Language Models
- Title(参考訳): MFC-Bench:大規模視覚言語モデルによるマルチモーダルファクトチェッキングのベンチマーク
- Authors: Shengkang Wang, Hongzhan Lin, Ziyang Luo, Zhen Ye, Guang Chen, Jing Ma,
- Abstract要約: 大規模視覚言語モデル(LVLM)はマルチモーダル推論タスクを大幅に改善した。
これらのモデルは、事実情報を格納するために外部知識ベースに頼るのではなく、パラメータ内にマルチモーダルな事実を埋め込む。
しかし、LVLMによって識別される内容は、固有のバイアスや誤った推論のために、実際の事実から逸脱する可能性がある。
MFC-Benchは、3つのタスクにわたるLVLMの実際の精度を評価するために設計されたベンチマークである。
- 参考スコア(独自算出の注目度): 17.052740348747424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large vision-language models (LVLMs) have significantly improved multimodal reasoning tasks, such as visual question answering and image captioning. These models embed multimodal facts within their parameters, rather than relying on external knowledge bases to store factual information explicitly. However, the content discerned by LVLMs may deviate from actual facts due to inherent bias or incorrect inference. To address this issue, we introduce MFC-Bench, a rigorous and comprehensive benchmark designed to evaluate the factual accuracy of LVLMs across three tasks: Manipulation, Out-of-Context, and Veracity Classification. Through our evaluation on MFC-Bench, we benchmarked 12 diverse and representative LVLMs, uncovering that current models still fall short in multimodal fact-checking and demonstrate insensitivity to various forms of manipulated content. We hope that MFC-Bench could raise attention to the trustworthy artificial intelligence potentially assisted by LVLMs in the future. The MFC-Bench and accompanying resources are publicly accessible at https://github.com/wskbest/MFC-Bench, contributing to ongoing research in the multimodal fact-checking field.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)は、視覚的質問応答や画像キャプションといったマルチモーダル推論タスクを大幅に改善した。
これらのモデルは、事実情報を明示的に格納するために外部知識ベースに頼るのではなく、パラメータ内にマルチモーダルな事実を埋め込む。
しかし、LVLMによって識別される内容は、固有のバイアスや誤った推論のために、実際の事実から逸脱する可能性がある。
MFC-Benchは,3つのタスクにわたるLVLMの実際の精度を評価するために設計された,厳密で包括的なベンチマークである。
MFC-Benchの評価を通じて、12種類の多種多様なLVLMをベンチマークし、現在のモデルがマルチモーダルなファクトチェックにおいてまだ不足していることを発見し、様々な種類の操作されたコンテンツに対する感度を実証した。
MFC-Benchが将来、LVLMによって支援される可能性のある、信頼できる人工知能に注意を向けることを願っている。
MFC-Benchと関連するリソースはhttps://github.com/wskbest/MFC-Benchで公開されている。
関連論文リスト
- What Matters in Learning Facts in Language Models? Multifaceted Knowledge Probing with Diverse Multi-Prompt Datasets [15.057992220389604]
我々は,大規模言語モデルの知識理解能力を評価するために,知識探索フレームワークBELIEF(-ICL)を導入する。
既存のデータセットよりも多様なプロンプトを持つMyriadLAMAを半自動生成します。
PLMの事実理解能力を正確かつ包括的に評価する上で,BELIEFsの有効性を検証した。
論文 参考訳(メタデータ) (2024-06-18T05:11:35Z) - Eyes Can Deceive: Benchmarking Counterfactual Reasoning Abilities of Multi-modal Large Language Models [71.34097831618631]
textbfCountertextbfFactual textbfMultitextbfModal reasoning benchmark(略して textbfCFMM)を導入する。
我々のCFMMは6つの課題からなる。
既存のMLLMは、自分たちが見ているものを信じることを好むが、その疑問に提示される反実的な前提を無視している。
論文 参考訳(メタデータ) (2024-04-19T15:53:27Z) - VL-ICL Bench: The Devil in the Details of Benchmarking Multimodal In-Context Learning [12.450293825734313]
大規模言語モデル(LLM)は、創発的な文脈内学習(ICL)を示すことで有名である。
本研究では,マルチモーダルインコンテキスト学習のためのベンチマークVL-ICL Benchを提案する。
我々は,このベンチマークスイートに対して最先端のVLLMの能力を評価する。
論文 参考訳(メタデータ) (2024-03-19T21:31:56Z) - Multimodal Large Language Models to Support Real-World Fact-Checking [80.41047725487645]
MLLM(Multimodal large language model)は、膨大な情報処理において人間を支援する能力を持つ。
MLLMはすでにファクトチェックツールとして使用されていますが、その能力や制限については検討中です。
本稿では,現実のファクトチェックを容易にするために,現在のマルチモーダルモデルの能力を体系的に評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-06T11:32:41Z) - FOFO: A Benchmark to Evaluate LLMs' Format-Following Capability [70.84333325049123]
FoFoは、大規模言語モデル(LLM)の複雑なドメイン固有のフォーマットに従う能力を評価するための先駆的なベンチマークである。
本稿では,大規模言語モデル(LLM)の複雑なドメイン固有フォーマットに従う能力を評価するための先駆的ベンチマークであるFoFoを提案する。
論文 参考訳(メタデータ) (2024-02-28T19:23:27Z) - LEMMA: Towards LVLM-Enhanced Multimodal Misinformation Detection with External Knowledge Augmentation [58.524237916836164]
外部知識を付加したLVLM強化マルチモーダル誤報検出システム LEMMAを提案する。
提案手法は,Twitter と Fakeddit のデータセットにおいて,上位ベースライン LVLM の精度を 7% と 13% に向上させる。
論文 参考訳(メタデータ) (2024-02-19T08:32:27Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Sight Beyond Text: Multi-Modal Training Enhances LLMs in Truthfulness
and Ethics [32.123919380959485]
MLLM(Multi-modal large language model)は、大規模言語モデル(LLM)に基づいて訓練される。
マルチモーダルなタスクでは優れているが、MLLMの純粋なNLP能力はしばしば過小評価され、テストされていない。
LLMをMLLMに移行するための一般的な戦略である視覚的インストラクションチューニングは、予期せぬ、興味深いことに、改善された真理性と倫理的整合性の両方を達成するのに役立ちます。
論文 参考訳(メタデータ) (2023-09-13T17:57:21Z) - LVLM-eHub: A Comprehensive Evaluation Benchmark for Large
Vision-Language Models [55.304181390027274]
本稿では,LVLM評価ハブ(LVLM-eHub)の構築により,一般公開された大規模マルチモーダルモデルの包括的評価を行う。
我々のLVLM-eHubは、InstructBLIPやMiniGPT-4などの代表的LVLMから成り、定量的能力評価とオンラインアリーナプラットフォームによって徹底的に評価されている。
この研究は、いくつかの革新的な発見を明らかにしている。まず、インストラクタBLIPのような膨大なドメイン内データを持つ命令調整型LVLMは、多くの既存のタスクを過度にオーバーフィットさせ、オープンワールドのシナリオでは一般化が不十分である。
論文 参考訳(メタデータ) (2023-06-15T16:39:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。