Fugu-MT 論文翻訳(概要): MFC-Bench: Benchmarking Multimodal Fact-Checking with Large Vision-Language Models

論文の概要: MFC-Bench: Benchmarking Multimodal Fact-Checking with Large Vision-Language Models

arxiv url: http://arxiv.org/abs/2406.11288v2
Date: Wed, 16 Oct 2024 09:59:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:33.729003
Title: MFC-Bench: Benchmarking Multimodal Fact-Checking with Large Vision-Language Models
Title（参考訳）: MFC-Bench:大規模視覚言語モデルによるマルチモーダルファクトチェッキングのベンチマーク
Authors: Shengkang Wang, Hongzhan Lin, Ziyang Luo, Zhen Ye, Guang Chen, Jing Ma,
Abstract要約: 大規模視覚言語モデル(LVLM)はマルチモーダル推論タスクを大幅に改善した。これらのモデルは、事実情報を明示的に格納するために外部知識ベースに頼るのではなく、パラメータ内にマルチモーダルな事実を埋め込む。しかし、LVLMによって識別される内容は、固有のバイアスや誤った推論のために、実際の事実から逸脱する可能性がある。 MFC-Benchは,3段階の検証予測において,LVLMの実際の精度を評価するために設計されたベンチマークである。
参考スコア（独自算出の注目度）: 17.052740348747424
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large vision-language models (LVLMs) have significantly improved multimodal reasoning tasks, such as visual question answering and image captioning. These models embed multimodal facts within their parameters, rather than relying on external knowledge bases to store factual information explicitly. However, the content discerned by LVLMs may deviate from actual facts due to inherent bias or incorrect inference. To address this issue, we introduce MFC-Bench, a rigorous and comprehensive benchmark designed to evaluate the factual accuracy of LVLMs across three stages of verdict prediction for MFC: Manipulation, Out-of-Context, and Veracity Classification. Through our evaluation on MFC-Bench, we benchmarked a dozen diverse and representative LVLMs, uncovering that current models still fall short in multimodal fact-checking and demonstrate insensitivity to various forms of manipulated content. We hope that MFC-Bench could raise attention to the trustworthy AI potentially assisted by LVLMs in the future. The MFC-Bench and accompanying resources are publicly accessible at https://github.com/wskbest/MFC-Bench, contributing to ongoing research in the multimodal fact-checking field.
Abstract（参考訳）: 大規模視覚言語モデル(LVLM)は、視覚的質問応答や画像キャプションといったマルチモーダル推論タスクを大幅に改善した。これらのモデルは、事実情報を明示的に格納するために外部知識ベースに頼るのではなく、パラメータ内にマルチモーダルな事実を埋め込む。しかし、LVLMによって識別される内容は、固有のバイアスや誤った推論のために、実際の事実から逸脱する可能性がある。この問題に対処するために,我々は,MFCの判定予測の3段階である操作,文脈外,品質分類の3段階にわたって,LVLMの実際の精度を評価するために設計された厳密で包括的なベンチマークであるMFC-Benchを紹介する。 MFC-Benchの評価を通じて、多数の多種多様で代表的なLVLMをベンチマークし、現在のモデルがマルチモーダルなファクトチェックにおいてまだ不足していることを発見し、様々な種類の操作されたコンテンツに対する感度を実証した。 MFC-Benchが将来、LVLMによって支援される可能性のある信頼できるAIに注意を向けることを願っている。 MFC-Benchと関連するリソースはhttps://github.com/wskbest/MFC-Benchで公開されている。

関連論文リスト

FewMMBench: A Benchmark for Multimodal Few-Shot Learning [17.747746608503114]
FewMMBenchは、MLLM(Multimodal large language model)を評価するために設計された包括的なベンチマークである。ゼロショット,少数ショット,CoT増設数ショット設定で6種類のモデルファミリーから26個のオープンウェイトMLLMを評価した。以上の結果から,命令調整モデルではゼロショット性能は高いが,デモやCoT推論を付加することで,最小限あるいは最小限の利益を得ることができた。
論文参考訳（メタデータ） (2026-02-25T12:30:18Z)
RealFactBench: A Benchmark for Evaluating Large Language Models in Real-World Fact-Checking [31.02873474960849]
本稿では,Large Language Models(LLM)とMultimodal Large Language Models(MLLM)のファクトチェック機能を評価するためのベンチマークであるRealFactBenchを紹介する。 RealFactBenchは、権威のあるソースから引き出された6Kの高品質なクレームで構成され、マルチモーダルコンテンツと多様なドメインを含んでいる。評価フレームワークはさらにUnknown Rate(UnR)メトリクスを導入し、不確実性を扱うモデルの能力をよりきめ細やかな評価を可能にします。
論文参考訳（メタデータ） (2025-06-14T15:27:44Z)
Mimicking or Reasoning: Rethinking Multi-Modal In-Context Learning in Vision-Language Models [19.361686225381447]
視覚言語モデル(VLM)は、文脈内学習(ICL)を示すと広く想定されている提案するMM-ICLにはReasoningパイプラインが組み込まれている。
論文参考訳（メタデータ） (2025-06-09T16:55:32Z)
MCiteBench: A Benchmark for Multimodal Citation Text Generation in MLLMs [31.793037002996257]
MLLM(Multimodal Large Language Models)は多様なモダリティを統合するために進歩しているが、幻覚に悩まされることが多い。既存の作業は、主にテキストのみのコンテンツのための引用を生成することに焦点を当て、マルチモーダルコンテキストの課題と機会を見下ろしている。 MLLMのマルチモーダル引用テキスト生成能力の評価と解析を目的とした,最初のベンチマークであるMCiteBenchを紹介する。
論文参考訳（メタデータ） (2025-03-04T13:12:39Z)
Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.7225771305861]
本稿では,マルチモーダル大規模言語モデルの有効性を評価するためのベンチマークであるMulti-Modal Retrieval-Augmented Generation (M$2$RAG)を紹介する。このベンチマークは、イメージキャプション、マルチモーダル質問応答、マルチモーダル事実検証、イメージリランクの4つのタスクで構成されている。 MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文参考訳（メタデータ） (2025-02-24T16:25:25Z)
VidLBEval: Benchmarking and Mitigating Language Bias in Video-Involved LVLMs [37.52094200472755]
本稿では,既存のビデオ関連LVLMの言語バイアスから,ほとんど探索されていない問題を明らかにする。ビデオ関連LVLMの言語バイアスを評価するために,まずビデオ言語バイアス評価ベンチマークを収集する。また,言語バイアスに対処するため,Multi-branch Contrastive Decoding (MCD)を提案する。
論文参考訳（メタデータ） (2025-02-23T15:04:23Z)
MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。 MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文参考訳（メタデータ） (2024-10-14T04:15:00Z)
LLM4VV: Exploring LLM-as-a-Judge for Validation and Verification Testsuites [6.796136787585992]
大規模言語モデル(LLM)は進化し、ソフトウェア開発のランドスケープに大きな革命をもたらしています。本稿では,ディレクティブプログラミングモデルのコンパイラ実装を評価するために使用されるテストの判定について考察する。
論文参考訳（メタデータ） (2024-08-21T15:54:17Z)
Multimodal Large Language Models to Support Real-World Fact-Checking [80.41047725487645]
MLLM(Multimodal large language model)は、膨大な情報処理において人間を支援する能力を持つ。 MLLMはすでにファクトチェックツールとして使用されていますが、その能力や制限については検討中です。本稿では,現実のファクトチェックを容易にするために,現在のマルチモーダルモデルの能力を体系的に評価するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-03-06T11:32:41Z)
FOFO: A Benchmark to Evaluate LLMs' Format-Following Capability [70.84333325049123]
FoFoは、大規模言語モデル(LLM)の複雑なドメイン固有のフォーマットに従う能力を評価するための先駆的なベンチマークである。本稿では,大規模言語モデル(LLM)の複雑なドメイン固有フォーマットに従う能力を評価するための先駆的ベンチマークであるFoFoを提案する。
論文参考訳（メタデータ） (2024-02-28T19:23:27Z)
Cofca: A Step-Wise Counterfactual Multi-hop QA benchmark [39.64489055580211]
実データと反実データからなる新しい評価ベンチマークであるCofCA(Step-wise Counterfactual benchmark)を導入する。実験の結果,ウィキペディアをベースとした事実データと反事実データの間には,既存のベンチマークにおけるデータ汚染問題を推定し,大きな性能差があることが判明した。
論文参考訳（メタデータ） (2024-02-19T08:12:30Z)
Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。 LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。 LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文参考訳（メタデータ） (2023-10-15T12:40:30Z)
Sight Beyond Text: Multi-Modal Training Enhances LLMs in Truthfulness and Ethics [32.123919380959485]
MLLM(Multi-modal large language model)は、大規模言語モデル(LLM)に基づいて訓練される。マルチモーダルなタスクでは優れているが、MLLMの純粋なNLP能力はしばしば過小評価され、テストされていない。 LLMをMLLMに移行するための一般的な戦略である視覚的インストラクションチューニングは、予期せぬ、興味深いことに、改善された真理性と倫理的整合性の両方を達成するのに役立ちます。
論文参考訳（メタデータ） (2023-09-13T17:57:21Z)
MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。本稿では,MLLM 評価ベンチマーク MME について述べる。知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文参考訳（メタデータ） (2023-06-23T09:22:36Z)
LVLM-eHub: A Comprehensive Evaluation Benchmark for Large Vision-Language Models [55.304181390027274]
本稿では,LVLM評価ハブ(LVLM-eHub)の構築により,一般公開された大規模マルチモーダルモデルの包括的評価を行う。我々のLVLM-eHubは、InstructBLIPやMiniGPT-4などの代表的LVLMから成り、定量的能力評価とオンラインアリーナプラットフォームによって徹底的に評価されている。この研究は、いくつかの革新的な発見を明らかにしている。まず、インストラクタBLIPのような膨大なドメイン内データを持つ命令調整型LVLMは、多くの既存のタスクを過度にオーバーフィットさせ、オープンワールドのシナリオでは一般化が不十分である。
論文参考訳（メタデータ） (2023-06-15T16:39:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。