論文の概要: Enhancing Multimodal Misinformation Detection by Replaying the Whole Story from Image Modality Perspective
- arxiv url: http://arxiv.org/abs/2511.06284v1
- Date: Sun, 09 Nov 2025 08:37:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.862519
- Title: Enhancing Multimodal Misinformation Detection by Replaying the Whole Story from Image Modality Perspective
- Title(参考訳): 画像モダリティから見た全ストーリーの再生によるマルチモーダル誤情報検出の強化
- Authors: Bing Wang, Ximing Li, Yanjun Wang, Changchun Li, Lin Yuanbo Wu, Buyu Wang, Shengsheng Wang,
- Abstract要約: MMD(Multimodal Misinformation Detection)は、誤情報を含むソーシャルメディアの投稿を検知するタスクである。
本稿では,RETSIMDという新しいMDD手法を提案する。具体的には,各テキストを複数のセグメントに分割し,各テキストセグメントが画像で表現できる部分シーンを記述する。
さらに、テキスト画像と画像ラベルの相互情報に関する2つの補助的目的を取り入れ、補助的なテキスト画像生成ベンチマークデータセット上でジェネレータを訓練する。
- 参考スコア(独自算出の注目度): 23.51937497342985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Misinformation Detection (MMD) refers to the task of detecting social media posts involving misinformation, where the post often contains text and image modalities. However, by observing the MMD posts, we hold that the text modality may be much more informative than the image modality because the text generally describes the whole event/story of the current post but the image often presents partial scenes only. Our preliminary empirical results indicate that the image modality exactly contributes less to MMD. Upon this idea, we propose a new MMD method named RETSIMD. Specifically, we suppose that each text can be divided into several segments, and each text segment describes a partial scene that can be presented by an image. Accordingly, we split the text into a sequence of segments, and feed these segments into a pre-trained text-to-image generator to augment a sequence of images. We further incorporate two auxiliary objectives concerning text-image and image-label mutual information, and further post-train the generator over an auxiliary text-to-image generation benchmark dataset. Additionally, we propose a graph structure by defining three heuristic relationships between images, and use a graph neural network to generate the fused features. Extensive empirical results validate the effectiveness of RETSIMD.
- Abstract(参考訳): MMD(Multimodal Misinformation Detection)は、誤情報を含むソーシャルメディアの投稿を検知するタスクである。
しかし,MDDの投稿を観察することで,テキストのモダリティが画像のモダリティよりもはるかに有益である可能性が示唆された。
予備実験の結果,画像のモダリティがMDDに正確に寄与することが示唆された。
そこで我々はRETSIMDという新しいMDD手法を提案する。
具体的には、各テキストを複数のセグメントに分割できると仮定し、各テキストセグメントは画像で表現できる部分的なシーンを記述する。
そこで我々はテキストをセグメントのシーケンスに分割し、これらのセグメントをトレーニング済みのテキスト・ツー・イメージ・ジェネレータに供給し、画像のシーケンスを拡大する。
さらに、テキスト画像と画像ラベルの相互情報に関する2つの補助的目的を取り入れ、補助的なテキスト画像生成ベンチマークデータセット上でジェネレータを訓練する。
さらに、画像間の3つのヒューリスティックな関係を定義し、グラフニューラルネットワークを用いて融合した特徴を生成するグラフ構造を提案する。
広範囲な実験結果から, RETSIMDの有効性が検証された。
関連論文リスト
- Multimodal Medical Image Binding via Shared Text Embeddings [15.504918331492716]
Multimodal Medical Image Binding with Text (Mtextsuperscript3Bind)は、医用画像モダリティのシームレスなアライメントを可能にする新しい事前トレーニングフレームワークである。
Mtextsuperscript3Bindの最初の微調整CLIPライクなイメージテキストモデルは、そのモダリティ固有のテキスト埋め込みスペースを調整する。
Mtextsuperscript3Bindは、ゼロショット、少数ショット分類およびクロスモーダル検索タスクにおいて、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-06-22T15:39:25Z) - Knowing Where to Focus: Attention-Guided Alignment for Text-based Person Search [64.15205542003056]
本稿では,AGM(Atention-Guided Mask)モデリングとTEM(Text Enrichment Module)という,2つの革新的なコンポーネントを備えたAGA(Atention-Guided Alignment)フレームワークを紹介する。
AGA は CUHK-PEDES と ICFG-PEDES と RSTP でそれぞれ78.36%、67.31%、67.4% に達した。
論文 参考訳(メタデータ) (2024-12-19T17:51:49Z) - SimTxtSeg: Weakly-Supervised Medical Image Segmentation with Simple Text Cues [11.856041847833666]
我々は、単純なテキストキューを利用して高品質な擬似ラベルを生成する新しいフレームワーク、SimTxtSegを提案する。
大腸ポリープ・セグメンテーションとMRI脳腫瘍セグメンテーションという2つの医療画像セグメンテーションの枠組みについて検討した。
論文 参考訳(メタデータ) (2024-06-27T17:46:13Z) - TextCoT: Zoom In for Enhanced Multimodal Text-Rich Image Understanding [91.30065932213758]
大規模マルチモーダルモデル(LMM)は、その顕著な推論能力を活用することを目的とした研究の急増を引き起こした。
テキストリッチな画像理解のための新しいChain-of-ThoughtフレームワークであるTextCoTを提案する。
私たちのメソッドは追加のトレーニングが不要で、即時プラグアンドプレイ機能を提供します。
論文 参考訳(メタデータ) (2024-04-15T13:54:35Z) - Text-based Person Search without Parallel Image-Text Data [52.63433741872629]
テキストベースの人物探索(TBPS)は,対象者の画像を与えられた自然言語記述に基づいて大きな画像ギャラリーから検索することを目的としている。
既存の手法は、並列画像テキストペアによるトレーニングモデルによって支配されており、収集には非常にコストがかかる。
本稿では,並列画像テキストデータなしでTBPSを探索する試みについて述べる。
論文 参考訳(メタデータ) (2023-05-22T12:13:08Z) - HGAN: Hierarchical Graph Alignment Network for Image-Text Retrieval [13.061063817876336]
画像テキスト検索のための階層型グラフアライメントネットワーク(HGAN)を提案する。
まず、包括的マルチモーダル特徴を捉えるために、画像の特徴グラフとテキストのモダリティをそれぞれ構築する。
そして、MFAR(Multi-granularity Feature Aggregation and Rearrangement)モジュールを設計した多粒性共有空間を構築する。
最後に、最終的な画像とテキストの特徴は、階層的アライメントを達成するために、3レベル類似関数によってさらに洗練される。
論文 参考訳(メタデータ) (2022-12-16T05:08:52Z) - NewsStories: Illustrating articles with visual summaries [49.924916589209374]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。
現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。
本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:34:11Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z) - VICTR: Visual Information Captured Text Representation for Text-to-Image
Multimodal Tasks [5.840117063192334]
テキスト入力からオブジェクトのリッチな視覚的意味情報をキャプチャするマルチモーダルタスクであるVICTRを提案する。
本稿では,シーングラフとそれに対応する幾何学的関係情報をグラフ畳み込みネットワークを用いて学習する。
テキスト表現は、単語レベルと文レベルの埋め込みで集約され、視覚的文脈表現と文表現の両方を生成する。
論文 参考訳(メタデータ) (2020-10-07T05:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。