論文の概要: Multimodal Misinformation Detection Using Early Fusion of Linguistic, Visual, and Social Features
- arxiv url: http://arxiv.org/abs/2507.01984v1
- Date: Thu, 26 Jun 2025 18:17:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:14.884176
- Title: Multimodal Misinformation Detection Using Early Fusion of Linguistic, Visual, and Social Features
- Title(参考訳): 言語的・視覚的・社会的特徴の早期融合を用いたマルチモーダル誤情報検出
- Authors: Gautam Kishore Shahi,
- Abstract要約: 本研究は、新型コロナウイルス(COVID-19)パンデミックとTwitter(現X)から収集された選挙期間中に、テキストと画像の両方を含む1,529のツイートを分析した。
その結果、教師なしと教師なしの機械学習モデルを組み合わせることで、非モダルモデルに比べて15%、バイモーダルモデルに比べて5%の分類性能が向上した。
- 参考スコア(独自算出の注目度): 6.8894258727040665
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Amid a tidal wave of misinformation flooding social media during elections and crises, extensive research has been conducted on misinformation detection, primarily focusing on text-based or image-based approaches. However, only a few studies have explored multimodal feature combinations, such as integrating text and images for building a classification model to detect misinformation. This study investigates the effectiveness of different multimodal feature combinations, incorporating text, images, and social features using an early fusion approach for the classification model. This study analyzed 1,529 tweets containing both text and images during the COVID-19 pandemic and election periods collected from Twitter (now X). A data enrichment process was applied to extract additional social features, as well as visual features, through techniques such as object detection and optical character recognition (OCR). The results show that combining unsupervised and supervised machine learning models improves classification performance by 15% compared to unimodal models and by 5% compared to bimodal models. Additionally, the study analyzes the propagation patterns of misinformation based on the characteristics of misinformation tweets and the users who disseminate them.
- Abstract(参考訳): 選挙や危機の間、ソーシャルメディアに誤報が溢れる潮流の中で、主にテキストベースのアプローチや画像ベースのアプローチに焦点をあてて、誤報検出に関する広範な研究が行われている。
しかし、誤情報を検出するための分類モデルを構築するためにテキストと画像を統合するなど、マルチモーダルな特徴の組み合わせを研究する研究はほとんどない。
本研究では, テキスト, 画像, 社会的特徴を取り入れたマルチモーダル特徴組合せの有効性について, 早期融合モデルを用いて検討した。
本研究は、新型コロナウイルス(COVID-19)パンデミックとTwitter(現在のX)から収集された選挙期間中に、テキストと画像の両方を含む1,529のツイートを分析した。
オブジェクト検出や光学文字認識 (OCR) などの手法を用いて, 付加的な社会的特徴や視覚的特徴を抽出するために, データエンリッチメントプロセスを適用した。
その結果、教師なしと教師なしの機械学習モデルを組み合わせることで、非モダルモデルに比べて15%、バイモーダルモデルに比べて5%の分類性能が向上した。
さらに,誤報ツイートの特徴と拡散するユーザに基づいて,誤報の伝播パターンを解析した。
関連論文リスト
- CLIP-IT: CLIP-based Pairing for Histology Images Classification [6.855390956571216]
視覚バックボーンモデルのトレーニングにCLIP-ITを導入し、外部ソースからの特権的なテキスト情報と組み合わせることで、組織像を分類する。
当初、モダリティペアリングのステップは、CLIPベースのモデルを使用して、組織像と外部ソースからの意味的に関連するテキストレポートデータとをマッチングし、拡張されたマルチモーダルデータセットを作成する。
パラメータ効率のよい微調整法を用いて、主(画像)と対(テキスト)のモダリティのミスアライメントを効率的に解決する。
論文 参考訳(メタデータ) (2025-04-22T18:14:43Z) - A New Hybrid Intelligent Approach for Multimodal Detection of Suspected Disinformation on TikTok [0.0]
本研究では,深層学習の計算能力とファジィ論理の解釈可能性を組み合わせて,TikTokビデオにおける疑わしい偽情報を検出するハイブリッドフレームワークを提案する。
この手法は、テキスト、音声、ビデオからデータを抽出し評価するマルチモーダル特徴分析装置と、ファジィ論理に基づくマルチモーダル情報検出装置の2つのコアコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-02-09T12:37:48Z) - A Self-Learning Multimodal Approach for Fake News Detection [35.98977478616019]
偽ニュース分類のための自己学習型マルチモーダルモデルを提案する。
このモデルは、ラベル付きデータを必要としない機能抽出のための堅牢な手法であるコントラスト学習を利用する。
公開データセットを用いた実験結果から,提案モデルがいくつかの最先端の分類手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-12-08T07:41:44Z) - Integrating Text and Image Pre-training for Multi-modal Algorithmic Reasoning [7.84845040922464]
本稿では,CVPRマルチモーダルアルゴリズム推論タスク2024におけるSMART-101の課題について述べる。
従来の視覚的な質問や回答タスクとは異なり、この課題はニューラルネットワークの抽象化、推論、一般化能力を評価する。
本モデルは,テキストと画像からそれぞれ特徴を抽出する2つの事前学習モデルに基づく。
論文 参考訳(メタデータ) (2024-06-08T01:45:06Z) - Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [120.49126407479717]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。
スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文 参考訳(メタデータ) (2024-03-12T00:02:03Z) - On the Multi-modal Vulnerability of Diffusion Models [56.08923332178462]
本稿では,MMP-Attackによる拡散モデル生成結果の操作について,特定の接尾辞を元のプロンプトに付加することで提案する。
我々のゴールは、拡散モデルを誘導し、元のオブジェクトを同時に除去しながら特定のオブジェクトを生成することである。
論文 参考訳(メタデータ) (2024-02-02T12:39:49Z) - Parkinson's Disease Classification Using Contrastive Graph Cross-View Learning with Multimodal Fusion of SPECT Images and Clinical Features [5.660131312162423]
パーキンソン病(PD)は世界中の何百万もの人に影響を与え、運動に影響を与えている。
以前の研究では、ディープラーニングをPD予測に利用し、主に医療画像に焦点を当て、データの基盤となる多様体構造を無視した。
本研究では,画像特徴と非画像特徴の両方を包含するマルチモーダルアプローチを提案し,PD分類にコントラッシブなクロスビューグラフ融合を利用する。
論文 参考訳(メタデータ) (2023-11-25T02:32:46Z) - Two Approaches to Supervised Image Segmentation [55.616364225463066]
本研究は、深層学習とマルチセットニューロンのアプローチの比較実験を開発する。
ディープラーニングアプローチは、画像セグメンテーションの実行の可能性を確認した。
代替のマルチセット手法では、計算資源をほとんど必要とせずに精度を向上することができた。
論文 参考訳(メタデータ) (2023-07-19T16:42:52Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z) - Borrowing Human Senses: Comment-Aware Self-Training for Social Media
Multimodal Classification [5.960550152906609]
視覚的および言語的類似性を共同で活用することで,ユーザコメントからヒントを抽出する。
分類タスクは教師-学生のフレームワークにおける自己学習を通じて探索され、通常はラベル付きデータスケールに動機づけられる。
その結果,提案手法は従来の最先端モデルの性能をさらに向上させることが示された。
論文 参考訳(メタデータ) (2023-03-27T08:59:55Z) - Cross-Media Keyphrase Prediction: A Unified Framework with
Multi-Modality Multi-Head Attention and Image Wordings [63.79979145520512]
マルチメディア投稿におけるキーワード予測におけるテキストと画像の併用効果について検討する。
複雑なマルチメディアインタラクションを捉えるために,M3H-Att(Multi-Modality Multi-Head Attention)を提案する。
我々のモデルは,従来の注目ネットワークに基づいて,過去の技術状況よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-11-03T08:44:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。