論文の概要: LEMMA: Towards LVLM-Enhanced Multimodal Misinformation Detection with External Knowledge Augmentation
- arxiv url: http://arxiv.org/abs/2402.11943v2
- Date: Thu, 20 Jun 2024 20:20:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 19:46:30.063722
- Title: LEMMA: Towards LVLM-Enhanced Multimodal Misinformation Detection with External Knowledge Augmentation
- Title(参考訳): LEMMA:外部知識を付加したLVLMによるマルチモーダル誤報検出に向けて
- Authors: Keyang Xuan, Li Yi, Fan Yang, Ruochen Wu, Yi R. Fung, Heng Ji,
- Abstract要約: 外部知識を付加したLVLM強化マルチモーダル誤報検出システム LEMMAを提案する。
提案手法は,Twitter と Fakeddit のデータセットにおいて,上位ベースライン LVLM の精度を 7% と 13% に向上させる。
- 参考スコア(独自算出の注目度): 58.524237916836164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rise of multimodal misinformation on social platforms poses significant challenges for individuals and societies. Its increased credibility and broader impact compared to textual misinformation make detection complex, requiring robust reasoning across diverse media types and profound knowledge for accurate verification. The emergence of Large Vision Language Model (LVLM) offers a potential solution to this problem. Leveraging their proficiency in processing visual and textual information, LVLM demonstrates promising capabilities in recognizing complex information and exhibiting strong reasoning skills. In this paper, we first investigate the potential of LVLM on multimodal misinformation detection. We find that even though LVLM has a superior performance compared to LLMs, its profound reasoning may present limited power with a lack of evidence. Based on these observations, we propose LEMMA: LVLM-Enhanced Multimodal Misinformation Detection with External Knowledge Augmentation. LEMMA leverages LVLM intuition and reasoning capabilities while augmenting them with external knowledge to enhance the accuracy of misinformation detection. Our method improves the accuracy over the top baseline LVLM by 7% and 13% on Twitter and Fakeddit datasets respectively.
- Abstract(参考訳): 社会プラットフォーム上でのマルチモーダルな誤情報の増加は、個人や社会にとって大きな課題となっている。
その信頼性の向上と、テキストの誤報と比較して幅広い影響により、検出は複雑になり、多様なメディアタイプにわたる堅牢な推論と、正確な検証のための深い知識が必要である。
LVLM(Large Vision Language Model)の出現は、この問題に対する潜在的な解決策を提供する。
LVLMは、視覚情報やテキスト情報を処理する能力を活用し、複雑な情報を認識し、強力な推論スキルを示す有望な能力を示す。
本稿では,マルチモーダル誤情報検出におけるLVLMの可能性について検討する。
LVLM は LLM よりも優れた性能を示すが、その深い推論は証拠の欠如を伴って限られたパワーを示す可能性がある。
これらの観測結果に基づき,LVLMによる外部知識増強によるマルチモーダル誤報検出手法を提案する。
LEMMAは、LVLMの直観と推論能力を活用し、それらを外部知識で強化し、誤情報検出の精度を高める。
提案手法は,Twitter と Fakeddit のデータセットにおいて,上位ベースライン LVLM の精度を 7% と 13% に向上させる。
関連論文リスト
- LLMs Know What They Need: Leveraging a Missing Information Guided Framework to Empower Retrieval-Augmented Generation [6.676337039829463]
ミス情報ガイド検索抽出パラダイム(MIGRES)を提案する。
欠落した情報の識別を利用して、その後の知識検索を操縦するターゲットクエリを生成する。
複数の公開データセットに対して行われた大規模な実験は、提案したMIGRES法の優位性を明らかにする。
論文 参考訳(メタデータ) (2024-04-22T09:56:59Z) - MMIDR: Teaching Large Language Model to Interpret Multimodal Misinformation via Knowledge Distillation [15.343028838291078]
MMIDRは,マルチモーダル誤報の意思決定プロセスにおいて,文章の質や質の良質な説明を提供するためのフレームワークである。
マルチモーダルな誤情報を適切な命令追従形式に変換するために,データ拡張の視点とパイプラインを示す。
さらに, オープンソースのLLMに多モード誤情報を説明するために, プロプライエタリなLLMを蒸留する効率的な知識蒸留手法を設計する。
論文 参考訳(メタデータ) (2024-03-21T06:47:28Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - Towards Vision Enhancing LLMs: Empowering Multimodal Knowledge Storage
and Sharing in LLMs [72.49064988035126]
マルチモーダル大規模言語モデル(MLLM)の強化を目的としたMKS2という手法を提案する。
具体的には、LLMの内部ブロックに組み込まれたコンポーネントであるModular Visual Memoryを導入し、オープンワールドの視覚情報を効率的に保存するように設計されている。
実験により,MKS2は物理的・常識的な知識を必要とする文脈において,LLMの推論能力を大幅に増強することが示された。
論文 参考訳(メタデータ) (2023-11-27T12:29:20Z) - Can Large Language Models Understand Content and Propagation for
Misinformation Detection: An Empirical Study [26.023148371263012]
大きな言語モデル(LLM)は、自然言語の理解と推論における強力な能力に対して大きな注目を集めている。
本研究では,誤情報検出タスクにおけるLCMの性能について,総合的研究を行った。
論文 参考訳(メタデータ) (2023-11-21T16:03:51Z) - RECALL: A Benchmark for LLMs Robustness against External Counterfactual
Knowledge [69.79676144482792]
本研究の目的は,LLMが外部知識から信頼できる情報を識別する能力を評価することである。
本ベンチマークは,質問応答とテキスト生成という2つのタスクから構成される。
論文 参考訳(メタデータ) (2023-11-14T13:24:19Z) - Investigating the Factual Knowledge Boundary of Large Language Models
with Retrieval Augmentation [91.30946119104111]
大規模言語モデル(LLM)は,質問に応答する能力に対して,波及しない自信を持っていることを示す。
検索の強化は、LLMの知識境界に対する認識を高める効果的なアプローチであることが証明されている。
また, LLM は, 回答の定式化に際し, 提案した検索結果に依存する傾向が認められた。
論文 参考訳(メタデータ) (2023-07-20T16:46:10Z) - On the Risk of Misinformation Pollution with Large Language Models [127.1107824751703]
本稿では,現代大規模言語モデル (LLM) の誤用の可能性について検討する。
本研究は, LLMが効果的な誤情報発生器として機能し, DOQAシステムの性能が著しく低下することを明らかにする。
論文 参考訳(メタデータ) (2023-05-23T04:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。