論文の概要: What's Left Unsaid? Detecting and Correcting Misleading Omissions in Multimodal News Previews
- arxiv url: http://arxiv.org/abs/2601.05563v1
- Date: Fri, 09 Jan 2026 06:29:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.865604
- Title: What's Left Unsaid? Detecting and Correcting Misleading Omissions in Multimodal News Previews
- Title(参考訳): 忘れているものは何か? - マルチモーダルニュースプレビューにおけるミススリーディングの発見と修正
- Authors: Fanxiao Li, Jiaying Wu, Tingchao Fu, Dayang Li, Herun Wan, Wei Zhou, Min-Yen Kan,
- Abstract要約: 事実が正しいとしても、ソーシャルメディアのニュースプレビューは解釈のドリフトを引き起こす。
この秘密の害は明示的な誤報よりも検出が難しいが、未発見のままである。
我々は、プレビューベースとコンテキストベースの理解を分離し、シミュレートするマルチステージパイプラインを開発した。
- 参考スコア(独自算出の注目度): 31.373823254968315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Even when factually correct, social-media news previews (image-headline pairs) can induce interpretation drift: by selectively omitting crucial context, they lead readers to form judgments that diverge from what the full article conveys. This covert harm is harder to detect than explicit misinformation yet remains underexplored. To address this gap, we develop a multi-stage pipeline that disentangles and simulates preview-based versus context-based understanding, enabling construction of the MM-Misleading benchmark. Using this benchmark, we systematically evaluate open-source LVLMs and uncover pronounced blind spots to omission-based misleadingness detection. We further propose OMGuard, which integrates (1) Interpretation-Aware Fine-Tuning, which used to improve multimodal misleadingness detection and (2) Rationale-Guided Misleading Content Correction, which uses explicit rationales to guide headline rewriting and reduce misleading impressions. Experiments show that OMGuard lifts an 8B model's detection accuracy to match a 235B LVLM and delivers markedly stronger end-to-end correction. Further analysis reveals that misleadingness typically stems from local narrative shifts (e.g., missing background) rather than global frame changes, and identifies image-driven scenarios where text-only correction fails, highlighting the necessity of visual interventions.
- Abstract(参考訳): 事実的に正しいとしても、ソーシャルメディアのニュースプレビュー(画像と見出しのペア)は解釈のドリフトを引き起こす。
この秘密の害は明示的な誤報よりも検出が難しいが、未発見のままである。
このギャップに対処するため,MM-Misleadingベンチマークの構築を可能にする,プレビューベースとコンテキストベースの理解を分離し,シミュレートする多段階パイプラインを開発した。
このベンチマークを用いて、オープンソースのLVLMを体系的に評価し、発音された盲点を発見した。
さらに,(1)マルチモーダルなミスリーディング検出を改善するための解釈認識ファインタニングと(2)見出しの書き直しをガイドし,誤解を招くインプレッションを減らすための論理的根拠を用いたRationale-Guided Misleading Content Correctionを統合したOMGuardを提案する。
実験によると、OMGuardは8Bモデルの検出精度を235BのLVLMと一致させ、非常に強力なエンドツーエンド補正を提供する。
さらなる分析により、誤解を招くのは、大域的なフレームの変化ではなく、局所的な物語の変化(例えば、背景の欠如)によるものであることが示され、テキストのみの修正が失敗する画像駆動シナリオを特定し、視覚的介入の必要性を強調している。
関連論文リスト
- MisSpans: Fine-Grained False Span Identification in Cross-Domain Fake News [30.038748916578978]
MisSpansは、スパンレベルの誤情報検出と分析のためのベンチマークである。
実話と偽ニュースが混在している。
微粒なローカライゼーション、真/偽以上のニュアンス化された特徴化、そして実行可能な説明を可能にする。
論文 参考訳(メタデータ) (2026-01-08T11:46:30Z) - Dual-Granularity Semantic Prompting for Language Guidance Infrared Small Target Detection [102.1314414263959]
限られた特徴表現と厳しい背景干渉のため、赤外線小目標検出は依然として困難である。
エンドツーエンドの言語プロンプト駆動フレームワークであるDGSPNetを提案する。
提案手法は検出精度を大幅に向上し、3つのベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2025-11-24T16:58:23Z) - Diversity Boosts AI-Generated Text Detection [51.56484100374058]
DivEyeは、予備的な機能を使って、予測不可能がテキスト間でどのように変動するかをキャプチャする、新しいフレームワークである。
提案手法は、既存のゼロショット検出器を最大33.2%向上させ、微調整ベースラインとの競合性能を達成する。
論文 参考訳(メタデータ) (2025-09-23T10:21:22Z) - Beyond Artificial Misalignment: Detecting and Grounding Semantic-Coordinated Multimodal Manipulations [56.816929931908824]
マルチモーダルデータにおける意味的協調操作の検出の先駆者となった。
本稿では,RamDG(Retrieval-Augmented Manipulation Detection and Grounding)フレームワークを提案する。
我々のフレームワークは既存の手法よりも優れており、SAMMの精度は最先端の手法に比べて2.06%高い。
論文 参考訳(メタデータ) (2025-09-16T04:18:48Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Interpretable Automatic Fine-grained Inconsistency Detection in Text
Summarization [56.94741578760294]
本研究の目的は, 要約中の事実誤りの微粒化を予測し, 微粒化不整合検出の課題を提案することである。
要約における現実的不整合の検査方法に触発され,解析可能な微粒不整合検出モデルであるFinGrainFactを提案する。
論文 参考訳(メタデータ) (2023-05-23T22:11:47Z) - Interpretable Detection of Out-of-Context Misinformation with Neural-Symbolic-Enhanced Large Multimodal Model [16.348950072491697]
誤報の作者は、ニュース検出システムや偽ニュースを騙すために、マルチメディア以外のコンテンツを使う傾向が強まっている。
この新たなタイプの誤報は、検出だけでなく、個々のモダリティが真の情報に十分近いため、明確化の難しさも増す。
本稿では,不一致のペアと相互の矛盾を同時に識別する,解釈可能なクロスモーダル・デコンテクスト化検出を実現する方法について検討する。
論文 参考訳(メタデータ) (2023-04-15T21:11:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。