論文の概要: LEMMA: Towards LVLM-Enhanced Multimodal Misinformation Detection with
External Knowledge Augmentation
- arxiv url: http://arxiv.org/abs/2402.11943v1
- Date: Mon, 19 Feb 2024 08:32:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 17:25:33.632096
- Title: LEMMA: Towards LVLM-Enhanced Multimodal Misinformation Detection with
External Knowledge Augmentation
- Title(参考訳): LEMMA:外部知識強化によるLVLM強化マルチモーダル誤情報検出に向けて
- Authors: Keyang Xuan, Li Yi, Fan Yang, Ruochen Wu, Yi R. Fung, Heng Ji
- Abstract要約: 外部知識を付加したLVLM強化マルチモーダル誤報検出システム LEMMAを提案する。
提案手法は,Twitter と Fakeddit のデータセットにおいて,上位ベースライン LVLM の精度を 7% と 13% に向上させる。
- 参考スコア(独自算出の注目度): 62.01320842738655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rise of multimodal misinformation on social platforms poses significant
challenges for individuals and societies. Its increased credibility and broader
impact compared to textual misinformation make detection complex, requiring
robust reasoning across diverse media types and profound knowledge for accurate
verification. The emergence of Large Vision Language Model (LVLM) offers a
potential solution to this problem. Leveraging their proficiency in processing
visual and textual information, LVLM demonstrates promising capabilities in
recognizing complex information and exhibiting strong reasoning skills. In this
paper, we first investigate the potential of LVLM on multimodal misinformation
detection. We find that even though LVLM has a superior performance compared to
LLMs, its profound reasoning may present limited power with a lack of evidence.
Based on these observations, we propose LEMMA: LVLM-Enhanced Multimodal
Misinformation Detection with External Knowledge Augmentation. LEMMA leverages
LVLM intuition and reasoning capabilities while augmenting them with external
knowledge to enhance the accuracy of misinformation detection. Our method
improves the accuracy over the top baseline LVLM by 7% and 13% on Twitter and
Fakeddit datasets respectively.
- Abstract(参考訳): 社会プラットフォーム上でのマルチモーダルな誤情報の増加は、個人や社会にとって大きな課題となっている。
信頼度が高まり、文章的誤情報よりも幅広い影響が検出を複雑にし、様々なメディアタイプにまたがる強固な推論と正確な検証のための深い知識を必要とする。
LVLM(Large Vision Language Model)の出現は、この問題に対する潜在的な解決策を提供する。
LVLMは、視覚情報やテキスト情報を処理する能力を活用し、複雑な情報を認識し、強力な推論スキルを示す有望な能力を示す。
本稿では,マルチモーダル誤情報検出におけるLVLMの可能性について検討する。
LVLM は LLM よりも優れた性能を示すが、その深い推論は証拠の欠如とともに限られたパワーを示す可能性がある。
これらの観測結果に基づき,LVLMによる外部知識増強によるマルチモーダル誤報検出手法を提案する。
LEMMAは、LVLMの直観と推論能力を活用し、それらを外部知識で強化し、誤情報検出の精度を高める。
本手法は,twitter と fakeddit のデータセットにおいて,上位ベースライン lvlm の精度をそれぞれ7%,13%向上させる。
関連論文リスト
- Understanding the Role of LLMs in Multimodal Evaluation Benchmarks [77.59035801244278]
本稿では,MLLM評価におけるLarge Language Model (LLM)バックボーンの役割について検討する。
本研究は4つのMLLMベンチマークと8つの最先端MLLMベンチマークを含む。
鍵となる発見は、いくつかのベンチマークでは視覚的な入力がなくても高いパフォーマンスを実現しており、最大50%のエラーレートは、LLMバックボーンにおける不十分な世界的知識に起因していることを示している。
論文 参考訳(メタデータ) (2024-10-16T07:49:13Z) - Mitigating Hallucinations in Large Vision-Language Models (LVLMs) via Language-Contrastive Decoding (LCD) [13.430637580980164]
Large Vision-Language Models (LVLM) は、画像入力とテキスト入力の両方の処理を容易にし、AI機能を拡張したLarge Language Models (LLM)の拡張である。
本研究では,LVLMの出力をLarge Language Models分布の信頼性レベルに基づいて調整するLanguage Contrastive Decoding (LCD)アルゴリズムを提案する。
本手法は,複雑な後処理や再学習を必要とせず,LVLMを効果的に改善し,異なるモデルに容易に適用できる。
論文 参考訳(メタデータ) (2024-08-06T08:10:34Z) - LLMs Know What They Need: Leveraging a Missing Information Guided Framework to Empower Retrieval-Augmented Generation [6.676337039829463]
ミス情報ガイド検索抽出パラダイム(MIGRES)を提案する。
欠落した情報の識別を利用して、その後の知識検索を操縦するターゲットクエリを生成する。
複数の公開データセットに対して行われた大規模な実験は、提案したMIGRES法の優位性を明らかにする。
論文 参考訳(メタデータ) (2024-04-22T09:56:59Z) - MMIDR: Teaching Large Language Model to Interpret Multimodal Misinformation via Knowledge Distillation [15.343028838291078]
MMIDRは,マルチモーダル誤報の意思決定プロセスにおいて,文章の質や質の良質な説明を提供するためのフレームワークである。
マルチモーダルな誤情報を適切な命令追従形式に変換するために,データ拡張の視点とパイプラインを示す。
さらに, オープンソースのLLMに多モード誤情報を説明するために, プロプライエタリなLLMを蒸留する効率的な知識蒸留手法を設計する。
論文 参考訳(メタデータ) (2024-03-21T06:47:28Z) - Towards Vision Enhancing LLMs: Empowering Multimodal Knowledge Storage
and Sharing in LLMs [72.49064988035126]
マルチモーダル大規模言語モデル(MLLM)の強化を目的としたMKS2という手法を提案する。
具体的には、LLMの内部ブロックに組み込まれたコンポーネントであるModular Visual Memoryを導入し、オープンワールドの視覚情報を効率的に保存するように設計されている。
実験により,MKS2は物理的・常識的な知識を必要とする文脈において,LLMの推論能力を大幅に増強することが示された。
論文 参考訳(メタデータ) (2023-11-27T12:29:20Z) - Can Large Language Models Understand Content and Propagation for
Misinformation Detection: An Empirical Study [26.023148371263012]
大きな言語モデル(LLM)は、自然言語の理解と推論における強力な能力に対して大きな注目を集めている。
本研究では,誤情報検出タスクにおけるLCMの性能について,総合的研究を行った。
論文 参考訳(メタデータ) (2023-11-21T16:03:51Z) - RECALL: A Benchmark for LLMs Robustness against External Counterfactual
Knowledge [69.79676144482792]
本研究の目的は,LLMが外部知識から信頼できる情報を識別する能力を評価することである。
本ベンチマークは,質問応答とテキスト生成という2つのタスクから構成される。
論文 参考訳(メタデータ) (2023-11-14T13:24:19Z) - Investigating the Factual Knowledge Boundary of Large Language Models
with Retrieval Augmentation [91.30946119104111]
大規模言語モデル(LLM)は,質問に応答する能力に対して,波及しない自信を持っていることを示す。
検索の強化は、LLMの知識境界に対する認識を高める効果的なアプローチであることが証明されている。
また, LLM は, 回答の定式化に際し, 提案した検索結果に依存する傾向が認められた。
論文 参考訳(メタデータ) (2023-07-20T16:46:10Z) - On the Risk of Misinformation Pollution with Large Language Models [127.1107824751703]
本稿では,現代大規模言語モデル (LLM) の誤用の可能性について検討する。
本研究は, LLMが効果的な誤情報発生器として機能し, DOQAシステムの性能が著しく低下することを明らかにする。
論文 参考訳(メタデータ) (2023-05-23T04:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。