論文の概要: ContextGuard-LVLM: Enhancing News Veracity through Fine-grained Cross-modal Contextual Consistency Verification
- arxiv url: http://arxiv.org/abs/2508.06623v1
- Date: Fri, 08 Aug 2025 18:10:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.476122
- Title: ContextGuard-LVLM: Enhancing News Veracity through Fine-grained Cross-modal Contextual Consistency Verification
- Title(参考訳): ContextGuard-LVLM: きめ細かいコンテキスト整合性検証によるニュースの精度向上
- Authors: Sihan Ma, Qiming Wu, Ruotong Jiang, Frank Burns,
- Abstract要約: 伝統的なアプローチは、細粒度のクロスモーダルなコンテキスト整合性の問題に対処するのに不足している。
先進的な視覚言語大モデルに基づく新しいフレームワークであるContextGuard-LVLMを提案する。
我々のモデルは、強化されたあるいは敵対的な学習パラダイムによって一意に強化されている。
- 参考スコア(独自算出の注目度): 2.012425476229879
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The proliferation of digital news media necessitates robust methods for verifying content veracity, particularly regarding the consistency between visual and textual information. Traditional approaches often fall short in addressing the fine-grained cross-modal contextual consistency (FCCC) problem, which encompasses deeper alignment of visual narrative, emotional tone, and background information with text, beyond mere entity matching. To address this, we propose ContextGuard-LVLM, a novel framework built upon advanced Vision-Language Large Models (LVLMs) and integrating a multi-stage contextual reasoning mechanism. Our model is uniquely enhanced through reinforced or adversarial learning paradigms, enabling it to detect subtle contextual misalignments that evade zero-shot baselines. We extend and augment three established datasets (TamperedNews-Ent, News400-Ent, MMG-Ent) with new fine-grained contextual annotations, including "contextual sentiment," "visual narrative theme," and "scene-event logical coherence," and introduce a comprehensive CTXT (Contextual Coherence) entity type. Extensive experiments demonstrate that ContextGuard-LVLM consistently outperforms state-of-the-art zero-shot LVLM baselines (InstructBLIP and LLaVA 1.5) across nearly all fine-grained consistency tasks, showing significant improvements in complex logical reasoning and nuanced contextual understanding. Furthermore, our model exhibits superior robustness to subtle perturbations and a higher agreement rate with human expert judgments on challenging samples, affirming its efficacy in discerning sophisticated forms of context detachment.
- Abstract(参考訳): デジタルニュースメディアの拡散は、特に視覚情報とテキスト情報の整合性に関して、コンテンツの妥当性を検証する堅牢な方法を必要とする。
伝統的なアプローチは、単純な実体マッチングを超えて、視覚的物語、感情的なトーン、背景情報のテキストとのより深いアライメントを含む、細粒度のクロスモーダルなコンテキスト整合性(FCCC)問題に対処する際、しばしば不足する。
そこで我々は,先進的な視覚言語大モデル(LVLM)に基づく新しいフレームワークであるContextGuard-LVLMを提案し,多段階の文脈推論機構を統合する。
我々のモデルは、強化された、あるいは敵対的な学習パラダイムによって一意に強化され、ゼロショットベースラインを回避できる微妙な文脈的ミスアライメントを検出することができる。
我々は,3つの確立されたデータセット(TamperedNews-Ent,News400-Ent,MMG-Ent)を拡張して拡張し,"コンテキスト感情","視覚的物語テーマ","シーン・イベント論理コヒーレンス"などのコンテキストアノテーションを導入し,包括的CTXT(Contextual Coherence)エンティティタイプを導入する。
包括的実験により、ContextGuard-LVLMは、ほぼすべてのきめ細かい一貫性タスクにおいて、最先端のゼロショットLVLMベースライン(InstructBLIPとLLaVA 1.5)を一貫して上回り、複雑な論理的推論とニュアンスドな文脈的理解の大幅な改善を示す。
さらに,本モデルでは,厳密な摂動に対する強い頑健さと,難解なサンプルに対する人間の専門家による判断との一致率が向上し,高度な文脈分離を識別する上での有効性が確認された。
関連論文リスト
- Text Speaks Louder than Vision: ASCII Art Reveals Textual Biases in Vision-Language Models [93.46875303598577]
視覚言語モデル(VLM)は、マルチモーダル情報処理において急速に進歩しているが、競合する信号の整合性は未解明のままである。
この研究は、VLMがASCIIアートをどう処理するかを考察する。
論文 参考訳(メタデータ) (2025-04-02T10:47:07Z) - Just KIDDIN: Knowledge Infusion and Distillation for Detection of INdecent Memes [8.42736066868944]
本稿では,LVLM(Large Visual Language Models)の知識蒸留(KD)と知識注入を統合し,有害度検出性能を向上させる新しいフレームワークを提案する。
提案手法は,コンパクトなVLMフレームワーク内で注入可能な大規模コモンセンス知識グラフ(KG)であるConceptNetから,サブ知識グラフを抽出する。
2つのヘイトスピーチベンチマークデータセットによる実験結果から,最先端のベースラインよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-11-19T02:39:28Z) - Meta-Chunking: Learning Text Segmentation and Semantic Completion via Logical Perception [10.614437503578856]
本稿では,チャンキング品質を特に向上させるメタチャンキングフレームワークを提案する。
我々は不確実性に基づく2つの適応的チャンキング手法、すなわちPerplexity ChunkingとMargin Sampling Chunkingを設計する。
我々は,2段階の階層的要約生成プロセスと3段階のテキストチャンク書き換え手順を含むグローバル情報補償機構を確立する。
論文 参考訳(メタデータ) (2024-10-16T17:59:32Z) - Contextualized Diffusion Models for Text-Guided Image and Video Generation [67.69171154637172]
条件拡散モデルは高忠実度テキスト誘導視覚生成および編集において優れた性能を示した。
本研究では,テキスト条件と視覚的サンプル間の相互作用とアライメントを包含するクロスモーダルコンテキストを組み込むことにより,コンテキスト拡散モデル(ContextDiff)を提案する。
理論的導出を伴うDDPMとDDIMの両方にモデルを一般化し、テキスト・ツー・イメージ生成とテキスト・ツー・ビデオ編集という2つの課題を伴う評価において、モデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-26T15:01:16Z) - WisdoM: Improving Multimodal Sentiment Analysis by Fusing Contextual
World Knowledge [73.76722241704488]
大規模視覚言語モデル(LVLM)から引き起こされる文脈的世界知識を利用してマルチモーダル感情分析を行うプラグインフレームワークWisdoMを提案する。
我々の手法は、いくつかの最先端手法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-01-12T16:08:07Z) - A Multi-Modal Context Reasoning Approach for Conditional Inference on
Joint Textual and Visual Clues [23.743431157431893]
共同文と視覚的手がかりの条件推論は多モーダル推論タスクである。
我々はModCRというマルチモーダルコンテキスト推論手法を提案する。
2つの対応するデータセットに対して広範囲な実験を行い、実験結果により性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-05-08T08:05:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。