論文の概要: UNITE-FND: Reframing Multimodal Fake News Detection through Unimodal Scene Translation
- arxiv url: http://arxiv.org/abs/2502.11132v1
- Date: Sun, 16 Feb 2025 14:00:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:14:43.679212
- Title: UNITE-FND: Reframing Multimodal Fake News Detection through Unimodal Scene Translation
- Title(参考訳): UNITE-FND:一様場面翻訳によるマルチモーダルフェイクニュースの検出
- Authors: Arka Mukherjee, Shreya Ghosh,
- Abstract要約: UNITE-FNDは,非モーダルテキスト分類タスクとしてマルチモーダルフェイクニュース検出を再構成する新しいフレームワークである。
本稿では,Gemini 1.5 Proを用いて,視覚コンテンツを構造化されたテキスト記述に変換する6つの特殊プロンプト戦略を提案する。
この結果から、構造化されたテキストベースの表現は、直接マルチモーダル処理を最小限の精度で置き換えることができることが示された。
- 参考スコア(独自算出の注目度): 1.731616932516487
- License:
- Abstract: Multimodal fake news detection typically demands complex architectures and substantial computational resources, posing deployment challenges in real-world settings. We introduce UNITE-FND, a novel framework that reframes multimodal fake news detection as a unimodal text classification task. We propose six specialized prompting strategies with Gemini 1.5 Pro, converting visual content into structured textual descriptions, and enabling efficient text-only models to preserve critical visual information. To benchmark our approach, we introduce Uni-Fakeddit-55k, a curated dataset family of 55,000 samples each, each processed through our multimodal-to-unimodal translation framework. Experimental results demonstrate that UNITE-FND achieves 92.52% accuracy in binary classification, surpassing prior multimodal models while reducing computational costs by over 10x (TinyBERT variant: 14.5M parameters vs. 250M+ in SOTA models). Additionally, we propose a comprehensive suite of five novel metrics to evaluate image-to-text conversion quality, ensuring optimal information preservation. Our results demonstrate that structured text-based representations can replace direct multimodal processing with minimal loss of accuracy, making UNITE-FND a practical and scalable alternative for resource-constrained environments.
- Abstract(参考訳): マルチモーダルフェイクニュース検出は通常、複雑なアーキテクチャと実質的な計算資源を必要とし、実際の環境でのデプロイメントの課題を提起する。
UNITE-FNDは,非モーダルテキスト分類タスクとしてマルチモーダルフェイクニュース検出を再構成する新しいフレームワークである。
本稿では,Gemini 1.5 Proによる6つの特別なプロンプト戦略を提案し,視覚コンテンツを構造化されたテキスト記述に変換し,テキストのみの効率的なモデルで重要な視覚情報を保存する。
このアプローチをベンチマークするために、Uni-Fakeddit-55kを導入しました。
実験の結果、UNITE-FNDはバイナリ分類において92.52%の精度を達成し、従来のマルチモーダルモデルを上回っ、計算コストを10倍以上削減した(TinyBERT変種:SOTAモデルでは14.5Mパラメータ対250M+)。
さらに、画像からテキストへの変換の質を評価し、最適な情報保存を確保するために、5つの新しいメトリクスからなる包括的スイートを提案する。
この結果から、構造化されたテキストベースの表現は、直接マルチモーダル処理を最小限の精度で置き換えることができることが示され、UNITE-FNDは資源制約のある環境に対する実用的でスケーラブルな代替手段となる。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - VLDBench: Vision Language Models Disinformation Detection Benchmark [37.40909096573706]
本稿では、VLDBenchの視覚言語情報検出ベンチマークについて述べる。
これは、unimodal (textonly) と multimodal (text and image) コンテンツの両方にわたる偽情報を検出するための、最初の包括的なベンチマークである。
VLDBenchは厳格な半自動データキュレーションパイプラインを備えており、22のドメイン専門家がアノテーションに300時間以上の時間を割いている。
論文 参考訳(メタデータ) (2025-02-17T02:18:47Z) - mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data [71.352883755806]
マルチモーダル埋め込みモデルは、テキストや画像などの様々なモダリティからデータを統一表現空間にマッピングする能力において、大きな注目を集めている。
しかし、ラベル付きマルチモーダルデータは、しばしば埋め込み性能を妨げる。
近年のアプローチでは、この問題に対処するためにデータ合成を活用しているが、合成データの質は依然として重大なボトルネックとなっている。
論文 参考訳(メタデータ) (2025-02-12T15:03:33Z) - MMCFND: Multimodal Multilingual Caption-aware Fake News Detection for Low-resource Indic Languages [0.4062349563818079]
Indic Fake News Detection (MMIFND) のためのマルチモーダル多言語データセットを提案する。
この厳密にキュレートされたデータセットは、ヒンディー語、ベンガル語、マラタイ語、マラヤラム語、タミル語、グジャラート語、パンジャービ語にまたがる28,085のインスタンスで構成されている。
フェイクニュース検出(MMCFND)のためのマルチモーダルキャプション対応フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-14T11:59:33Z) - Multi-modal Stance Detection: New Datasets and Model [56.97470987479277]
テキストと画像からなるツイートに対するマルチモーダル姿勢検出について検討する。
我々は、シンプルで効果的なマルチモーダル・プロンプト・チューニング・フレームワーク(TMPT)を提案する。
TMPTはマルチモーダル姿勢検出における最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-22T05:24:19Z) - Toward Real Text Manipulation Detection: New Dataset and New Solution [58.557504531896704]
プロフェッショナルなテキスト操作に関連する高コストは、現実世界のデータセットの可用性を制限する。
本稿では,14,250枚のテキスト画像を含むリアルテキスト操作データセットを提案する。
我々のコントリビューションは、実世界のテキスト改ざん検出の進歩を促進することを目的としている。
論文 参考訳(メタデータ) (2023-12-12T02:10:16Z) - Beyond Triplet: Leveraging the Most Data for Multimodal Machine
Translation [53.342921374639346]
マルチモーダル機械翻訳は、視覚などの他のモーダルからの情報を取り入れることで、翻訳品質を向上させることを目的としている。
従来のMMTシステムは主に視覚情報へのアクセスと利用に重点を置いており、画像関連データセット上でそれらの手法を検証する傾向がある。
本稿では,MTのための新しい手法と新しいデータセットを確立する。
論文 参考訳(メタデータ) (2022-12-20T15:02:38Z) - TLDW: Extreme Multimodal Summarisation of News Videos [76.50305095899958]
TL;DW - Too Long; Didn't Watch のシナリオに対して,Xtreme Multimodal Summarisation with Multimodal Output (XMSMO)を導入する。
XMSMOは,映像と文書のペアを非常に短い長さの要約にまとめることを目的としており,その内容は1つの表紙フレームを視覚的要約として,1つの文をテキスト要約として構成する。
本手法は, 参照要約を使わずに, 最適輸送計画に基づく意味分布間の距離の観点から, 視覚的およびテキスト的カバレッジを最適化することにより, 訓練を行う。
論文 参考訳(メタデータ) (2022-10-16T08:19:59Z) - MARMOT: A Deep Learning Framework for Constructing Multimodal
Representations for Vision-and-Language Tasks [0.0]
本稿では、モーダル変換(MARMOT)を用いた多モーダル表現と呼ばれる新しいヴィジュアル・アンド・ランゲージ・フレームワークを提案する。
MARMOTは、2016年アメリカ合衆国大統領選挙における選挙事件を報告しているツイートのマルチラベル分類において、20のカテゴリの19のアンサンブルテキストのみの分類器を上回っている。
論文 参考訳(メタデータ) (2021-09-23T17:48:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。