論文の概要: A Cross-Modal Rumor Detection Scheme via Contrastive Learning by Exploring Text and Image internal Correlations
- arxiv url: http://arxiv.org/abs/2508.11141v1
- Date: Fri, 15 Aug 2025 01:13:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.704434
- Title: A Cross-Modal Rumor Detection Scheme via Contrastive Learning by Exploring Text and Image internal Correlations
- Title(参考訳): テキストと画像内部相関関係の探索によるコントラスト学習によるクロスモーダル騒音検出方式
- Authors: Bin Ma, Yifei Zhang, Yongjin Xian, Qi Li, Linna Zhou, Gongxun Miao,
- Abstract要約: コントラスト学習に基づくクロスモーダルなうわさ検出手法を提案する。
スケールアウェア・フュージョンネットワークは,高精細なマルチスケール画像機能とグローバルテキスト機能を統合するように設計されている。
実験結果から,噂検出における既存の最先端手法よりも大幅な性能向上が得られた。
- 参考スコア(独自算出の注目度): 15.703292627605304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing rumor detection methods often neglect the content within images as well as the inherent relationships between contexts and images across different visual scales, thereby resulting in the loss of critical information pertinent to rumor identification. To address these issues, this paper presents a novel cross-modal rumor detection scheme based on contrastive learning, namely the Multi-scale Image and Context Correlation exploration algorithm (MICC). Specifically, we design an SCLIP encoder to generate unified semantic embeddings for text and multi-scale image patches through contrastive pretraining, enabling their relevance to be measured via dot-product similarity. Building upon this, a Cross-Modal Multi-Scale Alignment module is introduced to identify image regions most relevant to the textual semantics, guided by mutual information maximization and the information bottleneck principle, through a Top-K selection strategy based on a cross-modal relevance matrix constructed between the text and multi-scale image patches. Moreover, a scale-aware fusion network is designed to integrate the highly correlated multi-scale image features with global text features by assigning adaptive weights to image regions based on their semantic importance and cross-modal relevance. The proposed methodology has been extensively evaluated on two real-world datasets. The experimental results demonstrate that it achieves a substantial performance improvement over existing state-of-the-art approaches in rumor detection, highlighting its effectiveness and potential for practical applications.
- Abstract(参考訳): 既存の噂検出手法は、画像内の内容や、異なる視覚尺度におけるコンテキストと画像の固有の関係を無視することが多く、それによって、噂の特定に関連する重要な情報が失われる。
これらの課題に対処するため,マルチスケール画像・コンテキスト相関探索アルゴリズム (MICC) を用いて,コントラスト学習に基づくクロスモーダルな噂検出手法を提案する。
具体的には,SCLIPエンコーダを設計し,コントラスト事前学習によるテキストとマルチスケール画像パッチの統一的なセマンティック埋め込みを生成する。
これに基づいて、テキストとマルチスケールイメージパッチの間に構築されたクロスモーダル関連行列に基づくトップK選択戦略により、相互情報の最大化と情報ボトルネック原理によって導かれるテキスト意味論に最も関係のある画像領域を特定するために、クロスモーダルなマルチスケールアライメントモジュールが導入された。
さらに,その意味的重要性と相互関連性に基づいて,画像領域に適応重みを割り当てることで,高相関なマルチスケール画像特徴をグローバルテキスト特徴と統合する。
提案手法は2つの実世界のデータセットで広く評価されている。
実験結果から,噂検出における既存の最先端手法よりも大幅な性能向上を実現し,その有効性と実用化の可能性を明らかにした。
関連論文リスト
- A Multimodal Approach Combining Structural and Cross-domain Textual Guidance for Weakly Supervised OCT Segmentation [12.948027961485536]
Weakly Supervised Semantic (WSSS) アプローチを提案する。
本手法は診断精度の向上と医用画像の効率向上に資する技術である。
論文 参考訳(メタデータ) (2024-11-19T16:20:27Z) - Unifying Visual and Semantic Feature Spaces with Diffusion Models for Enhanced Cross-Modal Alignment [20.902935570581207]
本稿では,マルチモーダルアライメント・アンド・リコンストラクション・ネットワーク(MARNet)を導入し,視覚ノイズに対するモデルの耐性を高める。
MARNetは、異なるドメイン間で情報をスムーズかつ安定的にブレンドする、クロスモーダル拡散再構成モジュールを含んでいる。
2つのベンチマークデータセットであるVireo-Food172とIngredient-101で実施された実験は、MARNetがモデルによって抽出された画像情報の品質を効果的に改善することを示した。
論文 参考訳(メタデータ) (2024-07-26T16:30:18Z) - Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。
本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。
文献における既存手法に対して,本手法は良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-04-01T17:48:15Z) - From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - A New Fine-grained Alignment Method for Image-text Matching [4.33417045761714]
クロスモーダルフラグメンツ強化アライニングネットワークは,検索精度の向上を実現する。
実際に、我々はまず、新しいモード内フラグメント関係推論法を設計する。
提案手法は, rSum測定値において, 最先端手法を約5%から10%向上させる。
論文 参考訳(メタデータ) (2023-11-03T18:27:43Z) - Multi-scale Target-Aware Framework for Constrained Image Splicing
Detection and Localization [11.803255600587308]
統合パイプラインにおける特徴抽出と相関マッチングを結合するマルチスケールなターゲット認識フレームワークを提案する。
提案手法は,関連パッチの協調学習を効果的に促進し,特徴学習と相関マッチングの相互促進を行う。
我々の実験では、統一パイプラインを用いたモデルが、いくつかのベンチマークデータセット上で最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-08-18T07:38:30Z) - Image-Specific Information Suppression and Implicit Local Alignment for
Text-based Person Search [61.24539128142504]
テキストベースの人物検索(TBPS)は,問合せテキストが与えられた画像ギャラリーから同一の身元で歩行者画像を検索することを目的とした課題である。
既存の手法の多くは、モダリティ間の微粒な対応をモデル化するために、明示的に生成された局所的な部分に依存している。
TBPSのためのマルチレベルアライメントネットワーク(MANet)を提案する。
論文 参考訳(メタデータ) (2022-08-30T16:14:18Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。