論文の概要: Multimodal Large Language Models to Support Real-World Fact-Checking
- arxiv url: http://arxiv.org/abs/2403.03627v1
- Date: Wed, 6 Mar 2024 11:32:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 15:28:11.101544
- Title: Multimodal Large Language Models to Support Real-World Fact-Checking
- Title(参考訳): 実世界のファクトチェックをサポートするマルチモーダル大規模言語モデル
- Authors: Jiahui Geng, Yova Kementchedjhieva, Preslav Nakov, Iryna Gurevych
- Abstract要約: MLLM(Multimodal large language model)は、膨大な情報処理において人間を支援する能力を持つ。
MLLMはすでにファクトチェックツールとして使用されていますが、その能力や制限については検討中です。
本稿では,現実のファクトチェックを容易にするために,現在のマルチモーダルモデルの能力を体系的に評価するためのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 87.84266975165305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) carry the potential to support
humans in processing vast amounts of information. While MLLMs are already being
used as a fact-checking tool, their abilities and limitations in this regard
are understudied. Here is aim to bridge this gap. In particular, we propose a
framework for systematically assessing the capacity of current multimodal
models to facilitate real-world fact-checking. Our methodology is
evidence-free, leveraging only these models' intrinsic knowledge and reasoning
capabilities. By designing prompts that extract models' predictions,
explanations, and confidence levels, we delve into research questions
concerning model accuracy, robustness, and reasons for failure. We empirically
find that (1) GPT-4V exhibits superior performance in identifying malicious and
misleading multimodal claims, with the ability to explain the unreasonable
aspects and underlying motives, and (2) existing open-source models exhibit
strong biases and are highly sensitive to the prompt. Our study offers insights
into combating false multimodal information and building secure, trustworthy
multimodal models. To the best of our knowledge, we are the first to evaluate
MLLMs for real-world fact-checking.
- Abstract(参考訳): MLLM(Multimodal large language model)は、膨大な情報処理において人間を支援する能力を持つ。
MLLMはすでにファクトチェックツールとして使用されていますが、その能力や制限については検討中です。
ここではこのギャップを埋めようとしている。
特に,現実のファクトチェックを容易にするために,現在のマルチモーダルモデルの能力を体系的に評価するためのフレームワークを提案する。
我々の方法論はエビデンスフリーであり、これらのモデルの本質的な知識と推論能力のみを活用する。
モデルの予測、説明、信頼度レベルを抽出するプロンプトを設計することで、モデルの正確性、堅牢性、失敗の理由に関する研究課題を掘り下げる。
実験により,(1)GPT-4Vは悪質で誤解を招くマルチモーダルクレームを識別する上で優れた性能を示し,(2)既存のオープンソースモデルは強いバイアスを示し,そのプロンプトに非常に敏感であることがわかった。
我々の研究は、偽のマルチモーダル情報と戦うための洞察を与え、安全で信頼できるマルチモーダルモデルを構築する。
私たちの知る限りでは、実世界のファクトチェックのためにMLLMを評価するのは初めてです。
関連論文リスト
- From GPT-4 to Gemini and Beyond: Assessing the Landscape of MLLMs on
Generalizability, Trustworthiness and Causality through Four Modalities [111.44485171421535]
本研究では,最近のプロプライエタリおよびオープンソースMLLMの一般化性,信頼性,因果推論能力について,4つのモードで検討する。
これらの特性はMLLMの信頼性を定義するいくつかの代表的な要因であると考えている。
我々は,プロプライエタリなMLLMとオープンソースMLLMの両方の機能と限界を理解するのに有用な,14の実証的な発見を発見した。
論文 参考訳(メタデータ) (2024-01-26T18:53:03Z) - From Understanding to Utilization: A Survey on Explainability for Large
Language Models [27.295767173801426]
この調査は、Large Language Models (LLMs) における説明可能性の向上を示唆している。
主に、トレーニング済みの Transformer ベースの LLM に重点を置いています。
説明可能性の活用を考える際に、モデル編集、制御生成、モデル拡張に集中するいくつかの魅力的な方法を検討する。
論文 参考訳(メタデータ) (2024-01-23T16:09:53Z) - The Curious Case of Nonverbal Abstract Reasoning with Multi-Modal Large
Language Models [20.177263185773153]
MLLM(Multi-modal large language model)は、言語情報と視覚情報を統合したものである。
MLLMの革新的展望にもかかわらず、推論能力に対する我々の理解は限られている。
論文 参考訳(メタデータ) (2024-01-22T16:57:05Z) - Supervised Knowledge Makes Large Language Models Better In-context
Learners [97.71733265438044]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Are Large Language Models Good Fact Checkers: A Preliminary Study [26.023148371263012]
大規模言語モデル(LLM)は、その卓越した推論能力と広範な知識リポジトリによって、大きな注目を集めている。
本研究の目的は,特定のファクトチェックサブタスクに対処する上で,様々なLSMを包括的に評価することである。
論文 参考訳(メタデータ) (2023-11-29T05:04:52Z) - MLLM-Bench, Evaluating Multi-modal LLMs using GPT-4V [44.0908994116986]
視覚言語モデル(MLLM)は、人間の脳のマルチモーダル能力に合わせて、AIアプリケーションを拡張した。
MLLMの有効性を評価することは、不十分な回答を欠くタスクの主観的な性質のために大きな課題となる。
MLLM-Benchは、Vicunaにインスパイアされた革新的なベンチマークで、さまざまなシナリオにまたがる。
論文 参考訳(メタデータ) (2023-11-23T12:04:25Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language
Models [75.85429963948769]
最初の総合的MLLM評価ベンチマークMMEを示す。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
総計30個のMLLMをMMEで総合的に評価した。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。