論文の概要: E-CaTCH: Event-Centric Cross-Modal Attention with Temporal Consistency and Class-Imbalance Handling for Misinformation Detection
- arxiv url: http://arxiv.org/abs/2508.11197v1
- Date: Fri, 15 Aug 2025 04:13:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.737153
- Title: E-CaTCH: Event-Centric Cross-Modal Attention with Temporal Consistency and Class-Imbalance Handling for Misinformation Detection
- Title(参考訳): E-CaTCH:誤情報検出のための時間一貫性とクラスバランスハンドリングを伴うイベント中心のクロスモーダルアテンション
- Authors: Ahmad Mousavi, Yeganeh Abdollahinejad, Roberto Corizzo, Nathalie Japkowicz, Zois Boukouvalas,
- Abstract要約: E-CaTCHはソーシャルメディア上の誤情報を堅牢に検出するためのフレームワークである。
テキストの類似性と時間的近接性に基づいて、ポストを擬似イベントに集約し、各イベントを独立して処理する。
E-CaTCHは、最先端のベースラインを一貫して上回る。
- 参考スコア(独自算出の注目度): 4.34871407874107
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting multimodal misinformation on social media remains challenging due to inconsistencies between modalities, changes in temporal patterns, and substantial class imbalance. Many existing methods treat posts independently and fail to capture the event-level structure that connects them across time and modality. We propose E-CaTCH, an interpretable and scalable framework for robustly detecting misinformation. If needed, E-CaTCH clusters posts into pseudo-events based on textual similarity and temporal proximity, then processes each event independently. Within each event, textual and visual features are extracted using pre-trained BERT and ResNet encoders, refined via intra-modal self-attention, and aligned through bidirectional cross-modal attention. A soft gating mechanism fuses these representations to form contextualized, content-aware embeddings of each post. To model temporal evolution, E-CaTCH segments events into overlapping time windows and uses a trend-aware LSTM, enhanced with semantic shift and momentum signals, to encode narrative progression over time. Classification is performed at the event level, enabling better alignment with real-world misinformation dynamics. To address class imbalance and promote stable learning, the model integrates adaptive class weighting, temporal consistency regularization, and hard-example mining. The total loss is aggregated across all events. Extensive experiments on Fakeddit, IND, and COVID-19 MISINFOGRAPH demonstrate that E-CaTCH consistently outperforms state-of-the-art baselines. Cross-dataset evaluations further demonstrate its robustness, generalizability, and practical applicability across diverse misinformation scenarios.
- Abstract(参考訳): ソーシャルメディア上でのマルチモーダルな誤情報の検出は、モダリティの不整合、時間的パターンの変化、実質的なクラス不均衡により、依然として困難である。
既存の多くのメソッドは、ポストを独立して扱い、時間とモダリティをまたいでそれらを接続するイベントレベルの構造をキャプチャできない。
E-CaTCHは,誤情報を堅牢に検出するための,解釈可能でスケーラブルなフレームワークである。
必要であれば、E-CaTCHクラスタはテキストの類似性と時間的近接性に基づいて擬似イベントをポストし、各イベントを独立して処理する。
各イベントの中で、テキストおよび視覚的特徴は、事前訓練されたBERTとResNetエンコーダを使用して抽出され、モード内自己アテンションを介して洗練され、双方向のモーダルアテンションを介して整列される。
柔らかいゲーティング機構はこれらの表現を融合させ、各ポストのコンテキスト化されたコンテンツ対応の埋め込みを形成する。
時間的進化をモデル化するために、E-CaTCHはイベントを重なり合う時間窓に分割し、意味的シフトと運動量信号で拡張されたトレンド対応LSTMを使用して、時間とともに物語の進行をエンコードする。
分類はイベントレベルで行われ、現実世界の誤情報力学との整合性が向上する。
クラス不均衡に対処し、安定した学習を促進するために、適応的なクラス重み付け、時間的一貫性の正則化、ハードサンプルマイニングを統合する。
総損失は全イベントにまたがる。
Fakeddit、IND、COVID-19 MISINFOGRAPHの大規模な実験は、E-CaTCHが最先端のベースラインを一貫して上回ることを示した。
クロスデータセット評価は、その堅牢性、一般化可能性、および様々な誤情報シナリオにまたがる実用性をさらに示す。
関連論文リスト
- DAMS:Dual-Branch Adaptive Multiscale Spatiotemporal Framework for Video Anomaly Detection [7.117824587276951]
この研究は、マルチレベル特徴とデカップリング融合に基づくDual-Branch Adaptive Multiscale Stemporal Framework (DAMS)と呼ばれるデュアルパスアーキテクチャを提供する。
主処理経路は、適応型マルチスケール時間ピラミッドネットワーク(AMTPN)と畳み込みブロック注意機構(CBAM)を統合している。
論文 参考訳(メタデータ) (2025-07-28T08:42:00Z) - METER: Multi-modal Evidence-based Thinking and Explainable Reasoning -- Algorithm and Benchmark [48.78602579128459]
本稿では,画像,ビデオ,音声,映像コンテンツにまたがる偽造検出のための統合ベンチマークMETERを紹介する。
我々のデータセットは4つのトラックから構成されており、それぞれのトラックは実際のvsフェイク分類だけでなく、エビデンスチェーンに基づく説明も必要である。
論文 参考訳(メタデータ) (2025-07-22T03:42:51Z) - DESign: Dynamic Context-Aware Convolution and Efficient Subnet Regularization for Continuous Sign Language Recognition [11.879737436401175]
動的コンテキスト認識畳み込み(DCAC)とサブネット正規化接続性時間分類(SR-CTC)を組み合わせた新しいフレームワークであるDESignを提案する。
DCACは、記号を構成するフレーム間のモーションキューを動的にキャプチャし、コンテキスト情報に基づいて畳み込み重みを一意に適応させる。
SR-CTCは、監督トボリューションワークを適用してトレーニングを規則化し、様々なCTCアライメントパスを探索し、オーバーフィッティングを効果的に防止することを奨励する。
論文 参考訳(メタデータ) (2025-07-04T06:56:28Z) - CRIA: A Cross-View Interaction and Instance-Adapted Pre-training Framework for Generalizable EEG Representations [52.251569042852815]
CRIAは、可変長および可変チャネルコーディングを使用して、異なるデータセット間でEEGデータの統一表現を実現する適応フレームワークである。
このモデルでは、時間的、スペクトル的、空間的特徴を効果的に融合させるクロスアテンション機構を採用している。
テンプル大学脳波コーパスとCHB-MITデータセットによる実験結果から、CRIAは既存の方法よりも、同じ事前学習条件で優れていることが示された。
論文 参考訳(メタデータ) (2025-06-19T06:31:08Z) - FreRA: A Frequency-Refined Augmentation for Contrastive Learning on Time Series Classification [56.925103708982164]
周波数領域からの新たな視点を示し、ダウンストリーム分類の利点として、グローバル、独立、コンパクトの3つを識別する。
本稿では,分類タスクにおける時系列のコントラスト学習に適した,軽量で効果的な周波数補充拡張(FreRA)を提案する。
FreRAは、時系列分類、異常検出、転送学習タスクにおいて、常に10つの主要なベースラインを上回ります。
論文 参考訳(メタデータ) (2025-05-29T07:18:28Z) - TS-HTFA: Advancing Time Series Forecasting via Hierarchical Text-Free Alignment with Large Language Models [14.411646409316624]
時系列予測の新しい手法である textbfHierarchical textbfText-textbfFree textbfAlignment (textbfTS-HTFA) を導入する。
我々は、QR分解語埋め込みと学習可能なプロンプトに基づいて、ペア化されたテキストデータを適応的な仮想テキストに置き換える。
複数の時系列ベンチマークの実験は、HTFAが最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2024-09-23T12:57:24Z) - AMCEN: An Attention Masking-based Contrastive Event Network for Two-stage Temporal Knowledge Graph Reasoning [29.68279984719722]
時間的知識グラフ(TKG)は、現実世界の知識の進化する性質を効果的にモデル化することができ、その完全性と拡張は、既存の知識から新しい事象を推論することで達成できる。
しかし、推論精度はデータセットにおける新しいイベントと繰り返されるイベントの間に不均衡があるため、悪影響を及ぼす。
本研究では,今後の事象の2段階予測のために,局所的な時間的パターンを持つ注意マスキングに基づくコントラストイベントネットワーク(AMCEN)を提案する。
論文 参考訳(メタデータ) (2024-05-16T01:39:50Z) - Uncertainty-guided Boundary Learning for Imbalanced Social Event
Detection [64.4350027428928]
本研究では,不均衡なイベント検出タスクのための不確実性誘導型クラス不均衡学習フレームワークを提案する。
我々のモデルは、ほとんど全てのクラス、特に不確実なクラスにおいて、社会イベントの表現と分類タスクを大幅に改善する。
論文 参考訳(メタデータ) (2023-10-30T03:32:04Z) - Continual Vision-Language Representation Learning with Off-Diagonal
Information [112.39419069447902]
CLIPのようなマルチモーダルなコントラスト学習フレームワークは通常、トレーニングに大量の画像テキストサンプルを必要とする。
本稿では,ストリーミングデータを用いた連続CLIPトレーニングの実現可能性について論じる。
論文 参考訳(メタデータ) (2023-05-11T08:04:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。