Fugu-MT 論文翻訳(概要): FKA-Owl: Advancing Multimodal Fake News Detection through Knowledge-Augmented LVLMs

論文の概要: FKA-Owl: Advancing Multimodal Fake News Detection through Knowledge-Augmented LVLMs

arxiv url: http://arxiv.org/abs/2403.01988v2
Date: Tue, 6 Aug 2024 07:40:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-07 19:12:22.033024
Title: FKA-Owl: Advancing Multimodal Fake News Detection through Knowledge-Augmented LVLMs
Title（参考訳）: FKA-Owl:知識付加型LVLMによるマルチモーダルフェイクニュース検出の改善
Authors: Xuannan Liu, Peipei Li, Huaibo Huang, Zekun Li, Xing Cui, Jiahao Liang, Lixiong Qin, Weihong Deng, Zhaofeng He,
Abstract要約: 本稿では,FKA-Owlを提案する。FKA-Owlは,偽情報を利用した大規模視覚言語モデル(LVLM)の拡張のためのフレームワークである。パブリックベンチマークの実験では、FKA-Owlは従来の手法よりも優れたクロスドメイン性能を達成している。
参考スコア（独自算出の注目度）: 48.32113486904612
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The massive generation of multimodal fake news involving both text and images exhibits substantial distribution discrepancies, prompting the need for generalized detectors. However, the insulated nature of training restricts the capability of classical detectors to obtain open-world facts. While Large Vision-Language Models (LVLMs) have encoded rich world knowledge, they are not inherently tailored for combating fake news and struggle to comprehend local forgery details. In this paper, we propose FKA-Owl, a novel framework that leverages forgery-specific knowledge to augment LVLMs, enabling them to reason about manipulations effectively. The augmented forgery-specific knowledge includes semantic correlation between text and images, and artifact trace in image manipulation. To inject these two kinds of knowledge into the LVLM, we design two specialized modules to establish their representations, respectively. The encoded knowledge embeddings are then incorporated into LVLMs. Extensive experiments on the public benchmark demonstrate that FKA-Owl achieves superior cross-domain performance compared to previous methods. Code is publicly available at https://liuxuannan.github.io/FKA_Owl.github.io/.
Abstract（参考訳）: テキストと画像の両方を含む大規模なマルチモーダルフェイクニュースは、かなりの分布の相違を示し、一般化された検出器の必要性を喚起する。しかし、訓練の絶縁性は、古典的な検出器がオープンワールドの事実を得る能力を制限する。 LVLM(Large Vision-Language Models)は、豊かな世界の知識を符号化しているが、本質的には偽ニュースと戦って地元の偽情報を理解するのに適していない。本稿では,FKA-Owlを提案する。FKA-Owlは,不正な知識を利用してLVLMを増強し,操作を効果的に推論するフレームワークである。強化された偽造特有の知識には、テキストと画像のセマンティックな相関、および画像操作におけるアーティファクトトレースが含まれる。これらの2種類の知識をLVLMに注入するため、我々はそれぞれ2つの特別なモジュールを設計し、それらの表現を確立する。エンコードされた知識埋め込みはLVLMに組み込まれる。 FKA-Owlは, 従来の手法と比較して, クロスドメイン性能が優れていることを示す。コードはhttps://liuxuannan.github.io/FKA_Owl.github.io/で公開されている。

関連論文リスト

Towards Multimodal Understanding via Stable Diffusion as a Task-Aware Feature Extractor [32.34399128209528]
本研究では,事前学習したテキスト・画像拡散モデルが,命令認識型ビジュアルエンコーダとして機能するかどうかを検討する。拡散機能はセマンティクスに富み、強い画像テキストアライメントを符号化できる。次に,これらの特徴と大規模言語モデルとの整合性について検討し,漏洩現象を明らかにする。
論文参考訳（メタデータ） (2025-07-09T17:59:47Z)
LAVID: An Agentic LVLM Framework for Diffusion-Generated Video Detection [14.687867348598035]
大規模視覚言語モデル(LVLM)は、AI生成コンテンツ検出の新しいツールとなっている。本稿では,LVLMを用いた新たなai生成ビデオ検出システムであるLAVIDを提案する。提案するパイプラインは,検出のための明示的な知識ツールのセットを自動的に選択し,自己書換えによって構造を適応的に調整する。
論文参考訳（メタデータ） (2025-02-20T19:34:58Z)
Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance [67.26434607115392]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。 LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。 MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
論文参考訳（メタデータ） (2024-11-21T16:33:30Z)
LLM-GAN: Construct Generative Adversarial Network Through Large Language Models For Explainable Fake News Detection [34.984605500444324]
大規模言語モデル(LLM)は、その強力な自然言語理解と説明生成能力で知られている。 LLMをジェネレータとインタクタにするためのプロンプト機構を利用した新しいフレームワーク LLM-GAN を提案する。本結果は,LLM-GANが予測性能と説明品質の両方において有効であることを示す。
論文参考訳（メタデータ） (2024-09-03T11:06:45Z)
Detect, Investigate, Judge and Determine: A Knowledge-guided Framework for Few-shot Fake News Detection [50.079690200471454]
Few-Shot Fake News Detection (FS-FND) は、極めて低リソースのシナリオにおいて、非正確なニュースを実際のニュースと区別することを目的としている。ソーシャルメディア上でのフェイクニュースの拡散や有害な影響により、このタスクは注目を集めている。本稿では,内外からLLMを増強するDual-perspective Knowledge-Guided Fake News Detection (DKFND)モデルを提案する。
論文参考訳（メタデータ） (2024-07-12T03:15:01Z)
Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文参考訳（メタデータ） (2024-07-05T17:43:30Z)
Knowledge Graph-Enhanced Large Language Models via Path Selection [58.228392005755026]
大規模言語モデル(LLM)は、様々な現実世界のアプリケーションで前例のない性能を示している。 LLMは実際に不正確な出力、すなわち幻覚の問題を発生させることが知られている。上記の問題に対処する3段階の原理的フレームワークKELPを提案する。
論文参考訳（メタデータ） (2024-06-19T21:45:20Z)
Enhancing Contextual Understanding in Large Language Models through Contrastive Decoding [9.2433070542025]
大規模言語モデル(LLM)は、テキスト生成時に入力コンテキストを不適切に統合する傾向がある。本稿では, 逆無関係なパスを負のサンプルとして, コントラストデコーディングを統合する新しい手法を提案する。
論文参考訳（メタデータ） (2024-05-04T20:38:41Z)
Hyperbolic Learning with Synthetic Captions for Open-World Detection [26.77840603264043]
本稿では,視覚言語モデル(VLM)から知識を伝達して,オープン語彙記述を自動的に強化することを提案する。具体的には、予め訓練したVLMを用いて高濃度の合成キャプションをブートストラップし、画像の異なる領域について豊富な記述を提供する。また,視覚とキャプションの埋め込みの階層構造を付加する,新しい双曲型視覚言語学習手法を提案する。
論文参考訳（メタデータ） (2024-04-07T17:06:22Z)
SNIFFER: Multimodal Large Language Model for Explainable Out-of-Context Misinformation Detection [18.356648843815627]
アウト・オブ・コンテクスト(OOC)の誤報は、聴衆を誤解させる最も簡単かつ効果的な方法の1つである。現在の手法は、画像テキストの一貫性を評価することに重点を置いているが、その判断には説得力のある説明が欠けている。我々は、OOC誤情報検出と説明のために特別に設計された、新しいマルチモーダルな大規模言語モデルであるSNIFFERを紹介する。
論文参考訳（メタデータ） (2024-03-05T18:04:59Z)
How Large Language Models Encode Context Knowledge? A Layer-Wise Probing Study [27.23388511249688]
本稿では,知識を符号化する大規模言語モデルのレイヤーワイド能力について検討する。探索データセットの構築にはChatGPTの強力な生成能力を活用する。矛盾する知識と新たに獲得した知識の実験は、LLMが上位層でより多くのコンテキスト知識をエンコードすることを好んでいることを示している。
論文参考訳（メタデータ） (2024-02-25T11:15:42Z)
Harnessing Explanations: LLM-to-LM Interpreter for Enhanced Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。提案手法は、確立されたTAGデータセットの最先端結果を実現する。本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文参考訳（メタデータ） (2023-05-31T03:18:03Z)
Open-Vocabulary Multi-Label Classification via Multi-modal Knowledge Transfer [55.885555581039895]
マルチラベルゼロショット学習(ML-ZSL)は、事前訓練されたテキストラベル埋め込みによる知識の伝達に焦点を当てている。マルチラベル分類のためのMKT(Multimodal Knowledge Transfer)と呼ばれる新しいオープン語彙フレームワークを提案する。
論文参考訳（メタデータ） (2022-07-05T08:32:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。