Fugu-MT 論文翻訳(概要): FakeNewsGPT4: Advancing Multimodal Fake News Detection through Knowledge-Augmented LVLMs

論文の概要: FakeNewsGPT4: Advancing Multimodal Fake News Detection through Knowledge-Augmented LVLMs

arxiv url: http://arxiv.org/abs/2403.01988v1
Date: Mon, 4 Mar 2024 12:35:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-06 18:45:51.775880
Title: FakeNewsGPT4: Advancing Multimodal Fake News Detection through Knowledge-Augmented LVLMs
Title（参考訳）: FakeNewsGPT4:知識付加LVLMによるマルチモーダルフェイクニュース検出の改善
Authors: Xuannan Liu and Peipei Li and Huaibo Huang and Zekun Li and Xing Cui and Jiahao Liang and Lixiong Qin and Weihong Deng and Zhaofeng He
Abstract要約: 本稿では,大規模視覚言語モデル(Large Vision-Language Models)を,操作推論のためのフォージェリ固有の知識で拡張する新しいフレームワークを提案する。 FakeNewsGPT4は、以前の方法よりも優れたクロスドメインパフォーマンスを実現している。
参考スコア（独自算出の注目度）: 50.13829380113614
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The massive generation of multimodal fake news exhibits substantial distribution discrepancies, prompting the need for generalized detectors. However, the insulated nature of training within specific domains restricts the capability of classical detectors to obtain open-world facts. In this paper, we propose FakeNewsGPT4, a novel framework that augments Large Vision-Language Models (LVLMs) with forgery-specific knowledge for manipulation reasoning while inheriting extensive world knowledge as complementary. Knowledge augmentation in FakeNewsGPT4 involves acquiring two types of forgery-specific knowledge, i.e., semantic correlation and artifact trace, and merging them into LVLMs. Specifically, we design a multi-level cross-modal reasoning module that establishes interactions across modalities for extracting semantic correlations. Concurrently, a dual-branch fine-grained verification module is presented to comprehend localized details to encode artifact traces. The generated knowledge is translated into refined embeddings compatible with LVLMs. We also incorporate candidate answer heuristics and soft prompts to enhance input informativeness. Extensive experiments on the public benchmark demonstrate that FakeNewsGPT4 achieves superior cross-domain performance compared to previous methods. Code will be available.
Abstract（参考訳）: マルチモーダルフェイクニュースの大量発生は、かなりの分布の相違を示し、一般化された検出器の必要性を招いた。しかし、特定の領域における訓練の断続的な性質は、古典的検出器がオープンワールドの事実を得る能力を制限する。本稿では,多岐にわたる知識を相補的に継承しながら,操作推論のための偽造特化知識を備えた大規模視覚言語モデル(lvlms)を補完する新しいフレームワークであるfakenewsgpt4を提案する。 FakeNewsGPT4の知識増強は、意味的相関とアーティファクトトレースの2種類のフォージェリー固有の知識を取得し、それらをLVLMにマージする。具体的には,意味相関を抽出するためのモダリティ間のインタラクションを確立するマルチレベルクロスモーダル推論モジュールを設計する。同時に、局所化された詳細を理解してアーティファクトトレースをエンコードするために、デュアルブランチの細粒度検証モジュールが提示される。生成された知識は、LVLMと互換性のある洗練された埋め込みに変換される。また,候補解答ヒューリスティックスとソフトプロンプトを取り入れ,入力情報性を高める。 FakeNewsGPT4は,従来の手法に比べてクロスドメイン性能が優れていることを示す。コードは利用可能だ。

関連論文リスト

Towards Multimodal Understanding via Stable Diffusion as a Task-Aware Feature Extractor [32.34399128209528]
本研究では,事前学習したテキスト・画像拡散モデルが,命令認識型ビジュアルエンコーダとして機能するかどうかを検討する。拡散機能はセマンティクスに富み、強い画像テキストアライメントを符号化できる。次に,これらの特徴と大規模言語モデルとの整合性について検討し,漏洩現象を明らかにする。
論文参考訳（メタデータ） (2025-07-09T17:59:47Z)
LAVID: An Agentic LVLM Framework for Diffusion-Generated Video Detection [14.687867348598035]
大規模視覚言語モデル(LVLM)は、AI生成コンテンツ検出の新しいツールとなっている。本稿では,LVLMを用いた新たなai生成ビデオ検出システムであるLAVIDを提案する。提案するパイプラインは,検出のための明示的な知識ツールのセットを自動的に選択し,自己書換えによって構造を適応的に調整する。
論文参考訳（メタデータ） (2025-02-20T19:34:58Z)
Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance [67.26434607115392]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。 LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。 MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
論文参考訳（メタデータ） (2024-11-21T16:33:30Z)
LLM-GAN: Construct Generative Adversarial Network Through Large Language Models For Explainable Fake News Detection [34.984605500444324]
大規模言語モデル(LLM)は、その強力な自然言語理解と説明生成能力で知られている。 LLMをジェネレータとインタクタにするためのプロンプト機構を利用した新しいフレームワーク LLM-GAN を提案する。本結果は,LLM-GANが予測性能と説明品質の両方において有効であることを示す。
論文参考訳（メタデータ） (2024-09-03T11:06:45Z)
Detect, Investigate, Judge and Determine: A Knowledge-guided Framework for Few-shot Fake News Detection [50.079690200471454]
Few-Shot Fake News Detection (FS-FND) は、極めて低リソースのシナリオにおいて、非正確なニュースを実際のニュースと区別することを目的としている。ソーシャルメディア上でのフェイクニュースの拡散や有害な影響により、このタスクは注目を集めている。本稿では,内外からLLMを増強するDual-perspective Knowledge-Guided Fake News Detection (DKFND)モデルを提案する。
論文参考訳（メタデータ） (2024-07-12T03:15:01Z)
Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文参考訳（メタデータ） (2024-07-05T17:43:30Z)
Knowledge Graph-Enhanced Large Language Models via Path Selection [58.228392005755026]
大規模言語モデル(LLM)は、様々な現実世界のアプリケーションで前例のない性能を示している。 LLMは実際に不正確な出力、すなわち幻覚の問題を発生させることが知られている。上記の問題に対処する3段階の原理的フレームワークKELPを提案する。
論文参考訳（メタデータ） (2024-06-19T21:45:20Z)
Enhancing Contextual Understanding in Large Language Models through Contrastive Decoding [9.2433070542025]
大規模言語モデル(LLM)は、テキスト生成時に入力コンテキストを不適切に統合する傾向がある。本稿では, 逆無関係なパスを負のサンプルとして, コントラストデコーディングを統合する新しい手法を提案する。
論文参考訳（メタデータ） (2024-05-04T20:38:41Z)
Hyperbolic Learning with Synthetic Captions for Open-World Detection [26.77840603264043]
本稿では,視覚言語モデル(VLM)から知識を伝達して,オープン語彙記述を自動的に強化することを提案する。具体的には、予め訓練したVLMを用いて高濃度の合成キャプションをブートストラップし、画像の異なる領域について豊富な記述を提供する。また,視覚とキャプションの埋め込みの階層構造を付加する,新しい双曲型視覚言語学習手法を提案する。
論文参考訳（メタデータ） (2024-04-07T17:06:22Z)
SNIFFER: Multimodal Large Language Model for Explainable Out-of-Context Misinformation Detection [18.356648843815627]
アウト・オブ・コンテクスト(OOC)の誤報は、聴衆を誤解させる最も簡単かつ効果的な方法の1つである。現在の手法は、画像テキストの一貫性を評価することに重点を置いているが、その判断には説得力のある説明が欠けている。我々は、OOC誤情報検出と説明のために特別に設計された、新しいマルチモーダルな大規模言語モデルであるSNIFFERを紹介する。
論文参考訳（メタデータ） (2024-03-05T18:04:59Z)
How Large Language Models Encode Context Knowledge? A Layer-Wise Probing Study [27.23388511249688]
本稿では,知識を符号化する大規模言語モデルのレイヤーワイド能力について検討する。探索データセットの構築にはChatGPTの強力な生成能力を活用する。矛盾する知識と新たに獲得した知識の実験は、LLMが上位層でより多くのコンテキスト知識をエンコードすることを好んでいることを示している。
論文参考訳（メタデータ） (2024-02-25T11:15:42Z)
Harnessing Explanations: LLM-to-LM Interpreter for Enhanced Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。提案手法は、確立されたTAGデータセットの最先端結果を実現する。本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文参考訳（メタデータ） (2023-05-31T03:18:03Z)
Open-Vocabulary Multi-Label Classification via Multi-modal Knowledge Transfer [55.885555581039895]
マルチラベルゼロショット学習(ML-ZSL)は、事前訓練されたテキストラベル埋め込みによる知識の伝達に焦点を当てている。マルチラベル分類のためのMKT(Multimodal Knowledge Transfer)と呼ばれる新しいオープン語彙フレームワークを提案する。
論文参考訳（メタデータ） (2022-07-05T08:32:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。