論文の概要: Synthetic Misinformers: Generating and Combating Multimodal
Misinformation
- arxiv url: http://arxiv.org/abs/2303.01217v1
- Date: Thu, 2 Mar 2023 12:59:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 14:39:58.406624
- Title: Synthetic Misinformers: Generating and Combating Multimodal
Misinformation
- Title(参考訳): 合成ミスインフォーマー:マルチモーダルミス情報の生成と対処
- Authors: Stefanos-Iordanis Papadopoulos, Christos Koutlis, Symeon Papadopoulos,
Panagiotis C. Petrantonakis
- Abstract要約: マルチモーダル誤情報検出(MMD)は、画像と付随するテキストの組み合わせが誤読や誤字を検知する。
提案したCLIPベースの名前付きエンティティスワッピングは,マルチモーダル精度で他のOOCやNEIミスコンバータを上回り,MDDモデルに繋がることを示す。
- 参考スコア(独自算出の注目度): 11.696058634552147
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: With the expansion of social media and the increasing dissemination of
multimedia content, the spread of misinformation has become a major concern.
This necessitates effective strategies for multimodal misinformation detection
(MMD) that detect whether the combination of an image and its accompanying text
could mislead or misinform. Due to the data-intensive nature of deep neural
networks and the labor-intensive process of manual annotation, researchers have
been exploring various methods for automatically generating synthetic
multimodal misinformation - which we refer to as Synthetic Misinformers - in
order to train MMD models. However, limited evaluation on real-world
misinformation and a lack of comparisons with other Synthetic Misinformers
makes difficult to assess progress in the field. To address this, we perform a
comparative study on existing and new Synthetic Misinformers that involves (1)
out-of-context (OOC) image-caption pairs, (2) cross-modal named entity
inconsistency (NEI) as well as (3) hybrid approaches and we evaluate them
against real-world misinformation; using the COSMOS benchmark. The comparative
study showed that our proposed CLIP-based Named Entity Swapping can lead to MMD
models that surpass other OOC and NEI Misinformers in terms of multimodal
accuracy and that hybrid approaches can lead to even higher detection accuracy.
Nevertheless, after alleviating information leakage from the COSMOS evaluation
protocol, low Sensitivity scores indicate that the task is significantly more
challenging than previous studies suggested. Finally, our findings showed that
NEI-based Synthetic Misinformers tend to suffer from a unimodal bias, where
text-only MMDs can outperform multimodal ones.
- Abstract(参考訳): ソーシャルメディアの拡大とマルチメディアコンテンツの普及に伴い、誤情報の拡散が大きな関心事となっている。
これは、画像とそれに伴うテキストの組み合わせが誤解を招くかどうかを検出するマルチモーダル誤情報検出(mmd)のための効果的な戦略を必要とする。
ディープニューラルネットワークのデータ集約性と手動アノテーションの労働集約的なプロセスのため、研究者はMDDモデルをトレーニングするために、合成マルチモーダル誤報(synthetic Misinformers)と呼ばれる)を自動生成する様々な方法を模索してきた。
しかし、実世界の誤情報に対する限定的な評価と、他の合成誤情報との比較の欠如は、この分野の進歩を評価するのに困難である。
そこで本研究では,(1)OOC(out-of-context)イメージキャプションペア,(2)NEI(cross-modal named entity inconsistency)および(3)ハイブリッドアプローチを含む,既存のおよび新しいシンセティックミシンフォーマの比較研究を行い,実世界の誤情報に対して評価する。
比較研究により,提案したCLIPベースの名前付きエンティティスワッピングは,マルチモーダル精度で他のOOCおよびNEIミスコンバータを上回り,ハイブリッドアプローチによりより高い検出精度が得られることを示す。
それにもかかわらず、COSMOS評価プロトコルからの情報漏洩を緩和した後、感度の低いスコアは、タスクが従来の研究よりはるかに難しいことを示唆している。
最後に,neiベースの合成ミスインフォーマーは,テキストのみのmmdがマルチモーダルに勝るユニモーダルバイアスに苦しむ傾向を示した。
関連論文リスト
- LOKI: A Comprehensive Synthetic Data Detection Benchmark using Large Multimodal Models [55.903148392998965]
複数モードで合成データを検出するLMMの能力を評価するための新しいベンチマークであるLOKIを紹介する。
このベンチマークには、粗粒度判定と多重選択質問、微粒度の異常選択と説明タスクが含まれている。
LOKI上で22のオープンソースLMMと6つのクローズドソースモデルを評価し、合成データ検出器としての可能性を強調し、LMM機能開発におけるいくつかの制限を明らかにした。
論文 参考訳(メタデータ) (2024-10-13T05:26:36Z) - RADAR: Robust Two-stage Modality-incomplete Industrial Anomaly Detection [61.71770293720491]
本稿では,2段階のロバスト・モードアリティ不完全融合とFlaAmewoRkの検出について提案する。
我々のブートストラッピング哲学は、MIIADの2段階を強化し、マルチモーダルトランスの堅牢性を向上させることである。
実験の結果,提案手法は従来のMIAD法よりも有効性とロバスト性に優れていた。
論文 参考訳(メタデータ) (2024-10-02T16:47:55Z) - GFE-Mamba: Mamba-based AD Multi-modal Progression Assessment via Generative Feature Extraction from MCI [5.355943545567233]
アルツハイマー病(英語: Alzheimer's Disease、AD)は、軽度認知障害(MCI)から進行する可逆性神経変性疾患である。
生成特徴抽出(GFE)に基づく分類器GFE-Mambaを紹介する。
評価尺度、MRI、PETのデータを統合し、より深いマルチモーダル融合を可能にする。
GFE-MambaモデルがMCIからADへの変換予測に有効であることを示す。
論文 参考訳(メタデータ) (2024-07-22T15:22:33Z) - Towards Precision Healthcare: Robust Fusion of Time Series and Image Data [8.579651833717763]
本稿では,データの種類毎に2つのエンコーダを用いて,視覚情報と時間情報の両方において複雑なパターンをモデル化する手法を提案する。
また、不均衡なデータセットに対処し、不確実性損失関数を使用し、改善した結果を得る。
本手法は,臨床応用におけるマルチモーダルディープラーニングの改善に有効であることを示す。
論文 参考訳(メタデータ) (2024-05-24T11:18:13Z) - Cross-head mutual Mean-Teaching for semi-supervised medical image
segmentation [6.738522094694818]
SSMIS(Semi-supervised Medical Image segmentation)は、限られたラベル付きデータと豊富なラベルなしデータを活用することで、大幅な進歩を目撃している。
既存のSOTA(State-of-the-art)手法は、ラベルなしデータのラベルを正確に予測する際の課題に直面する。
強弱データ拡張を組み込んだ新しいクロスヘッド相互学習ネットワーク(CMMT-Net)を提案する。
論文 参考訳(メタデータ) (2023-10-08T09:13:04Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - MMG-Ego4D: Multi-Modal Generalization in Egocentric Action Recognition [73.80088682784587]
MMG(Multimodal Generalization)は,特定のモダリティのデータに制限がある場合,あるいは完全に欠落する場合に,システムがどのように一般化できるかを研究することを目的としている。
MMGは2つの新しいシナリオで構成され、現実のアプリケーションにおけるセキュリティと効率の考慮をサポートするように設計されている。
新しい融合モジュールは、モダリティのドロップアウトトレーニング、コントラストベースのアライメントトレーニング、そして新しいクロスモーダル損失により、より優れた数ショット性能を実現した。
論文 参考訳(メタデータ) (2023-05-12T03:05:40Z) - VERITE: A Robust Benchmark for Multimodal Misinformation Detection
Accounting for Unimodal Bias [17.107961913114778]
マルチモーダルの誤報は ソーシャルメディアのプラットフォームで 増え続けている問題です
本研究では,広範に使用されているMDDベンチマークにおいて,一様偏差の存在を調査・同定する。
リアルな合成学習データを生成するための新しい手法であるCrossmodal HArd Synthetic MisAlignment (CHASMA)を導入する。
論文 参考訳(メタデータ) (2023-04-27T12:28:29Z) - Cross-Modality Neuroimage Synthesis: A Survey [71.27193056354741]
マルチモダリティイメージングは、疾患の診断を改善し、解剖学的特性を持つ組織における相違を明らかにする。
完全な整列とペアの多モードニューロイメージングデータの存在は、脳研究においてその効果を証明している。
もう一つの解決策は、教師なしまたは弱教師なしの学習方法を探究し、欠落した神経画像データを合成することである。
論文 参考訳(メタデータ) (2022-02-14T19:29:08Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。