論文の概要: Can LLMs Improve Multimodal Fact-Checking by Asking Relevant Questions?
- arxiv url: http://arxiv.org/abs/2410.04616v2
- Date: Thu, 20 Feb 2025 21:34:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 17:07:24.143873
- Title: Can LLMs Improve Multimodal Fact-Checking by Asking Relevant Questions?
- Title(参考訳): LLMは関連する質問に答えることでマルチモーダル・ファクト・チェッキングを改善できるか?
- Authors: Alimohammad Beigi, Bohan Jiang, Dawei Li, Zhen Tan, Pouya Shaeri, Tharindu Kumarage, Amrita Bhattacharjee, Huan Liu,
- Abstract要約: 大規模言語モデル(LLM)は、証拠検索と事実検証を大規模に自動化するために一般的に用いられている。
本稿では,LLMを用いて証拠検索とファクトチェックの促進を図るためのフレームワークLRQ-FACTを提案する。
- 参考スコア(独自算出の注目度): 16.559968418625537
- License:
- Abstract: Traditional fact-checking relies on humans to formulate relevant and targeted fact-checking questions (FCQs), search for evidence, and verify the factuality of claims. While Large Language Models (LLMs) have been commonly used to automate evidence retrieval and factuality verification at scale, their effectiveness for fact-checking is hindered by the absence of FCQ formulation. To bridge this gap, we seek to answer two research questions: (1) Can LLMs generate relevant FCQs? (2) Can LLM-generated FCQs improve multimodal fact-checking? We therefore introduce a framework LRQ-FACT for using LLMs to generate relevant FCQs to facilitate evidence retrieval and enhance fact-checking by probing information across multiple modalities. Through extensive experiments, we verify if LRQ-FACT can generate relevant FCQs of different types and if LRQ-FACT can consistently outperform baseline methods in multimodal fact-checking. Further analysis illustrates how each component in LRQ-FACT works toward improving the fact-checking performance.
- Abstract(参考訳): 従来のファクトチェックは人間に頼り、関連する事実チェックの質問(FCQ)を定式化し、証拠を探し、クレームの事実性を検証する。
大規模言語モデル (LLM) は, 証拠検索や事実検証を大規模に自動化するために一般的に用いられているが, 事実確認の有効性はFCQの定式化の欠如によって妨げられている。
このギャップを埋めるために、我々は、(1)LLMが関連するFCQを生成できるのか?
2) LLM生成FCQはマルチモーダルファクトチェックを改善することができるか?
そこで本研究では,LLMを用いて証拠検索を円滑に行うためのフレームワークLRQ-FACTを導入する。
広範な実験を通して、LRQ-FACTが異なるタイプのFCQを生成できるかどうか、また、LRQ-FACTがマルチモーダル事実チェックにおいてベースライン法を一貫して上回っているかどうかを検証する。
さらに分析は、LRQ-FACTの各コンポーネントがファクトチェックのパフォーマンスを改善するためにどのように機能するかを示している。
関連論文リスト
- SimpleVQA: Multimodal Factuality Evaluation for Multimodal Large Language Models [38.739880143262845]
我々は,MLLMが自然言語の短い質問に答える事実性を評価するための,最初の総合的なベンチマークであるSimpleVQAを紹介する。
SimpleVQAは、複数のタスクと複数のシナリオをカバーすること、高品質で挑戦的なクエリを保証すること、静的でタイムレスな参照回答を維持すること、そして評価しやすいこと、の6つの重要な特徴によって特徴付けられる。
論文 参考訳(メタデータ) (2025-02-18T17:04:26Z) - Needle In A Multimodal Haystack [79.81804334634408]
本稿では,従来のMLLMの長大なマルチモーダル文書の理解能力を評価するために設計された,最初のベンチマークを示す。
我々のベンチマークには、マルチモーダル検索、カウント、推論の3種類の評価タスクが含まれている。
既存のモデルには、これらのタスク、特に視覚中心の評価において、改善の余地がまだ残っていることを観察する。
論文 参考訳(メタデータ) (2024-06-11T13:09:16Z) - Retrieval Meets Reasoning: Even High-school Textbook Knowledge Benefits Multimodal Reasoning [49.3242278912771]
RMR(Retrieval Meets Reasoning)と呼ばれる新しいマルチモーダルRAGフレームワークについて紹介する。
RMRフレームワークは、最も関連性の高い問合せ対を特定するために、バイモーダル検索モジュールを使用する。
これは、ベンチマークデータセットのスペクトルにわたって様々なビジョン言語モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-31T14:23:49Z) - Quantifying and Mitigating Unimodal Biases in Multimodal Large Language Models: A Causal Perspective [9.633811630889237]
本稿では,視覚質問応答(VQA)問題におけるバイアスを解釈するための因果的枠組みを提案する。
マルチホップ推論を必要とする12,000の挑戦VQAインスタンスを備えた新しいデータセットを導入する。
実験の結果, MLLMはMOREに悪影響を及ぼし, 強い一方向偏差と限定的な意味理解を示すことがわかった。
論文 参考訳(メタデータ) (2024-03-27T08:38:49Z) - Multimodal Large Language Models to Support Real-World Fact-Checking [80.41047725487645]
MLLM(Multimodal large language model)は、膨大な情報処理において人間を支援する能力を持つ。
MLLMはすでにファクトチェックツールとして使用されていますが、その能力や制限については検討中です。
本稿では,現実のファクトチェックを容易にするために,現在のマルチモーダルモデルの能力を体系的に評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-06T11:32:41Z) - Chain-of-Discussion: A Multi-Model Framework for Complex Evidence-Based Question Answering [55.295699268654545]
本稿では,オープンソースのLarge Language Model間の相乗効果を利用する新しいChain-ofDiscussionフレームワークを提案する。
実験の結果,複数のLSM間の議論は回答の質を高める上で重要な役割を担っていることがわかった。
論文 参考訳(メタデータ) (2024-02-26T05:31:34Z) - MM-BigBench: Evaluating Multimodal Models on Multimodal Content
Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。
本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文 参考訳(メタデータ) (2023-10-13T11:57:04Z) - On the Performance of Multimodal Language Models [4.677125897916577]
本研究は、異なるマルチモーダル命令チューニングアプローチの比較分析を行う。
大規模言語モデルにマルチモーダル機能を組み込む際に,アーキテクチャ選択を導く上で重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2023-10-04T23:33:36Z) - Getting MoRE out of Mixture of Language Model Reasoning Experts [71.61176122960464]
多様な特殊言語モデルを組み込んだMixture-of-Reasoning-Experts (MoRE) フレームワークを提案する。
実例,マルチホップ,数学的,コモンセンス推論など,さまざまな推論カテゴリに最適化されたプロンプトを備えたバックボーン言語モデルを特化する。
人間の研究では、専門家による予測と回答の選択プロセスが、アノテータがシステムの出力を信頼するタイミングをより正確に調整するのに役立ちます。
論文 参考訳(メタデータ) (2023-05-24T02:00:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。