論文の概要: Knowledge-Enhanced Hierarchical Information Correlation Learning for
Multi-Modal Rumor Detection
- arxiv url: http://arxiv.org/abs/2306.15946v1
- Date: Wed, 28 Jun 2023 06:08:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-06-29 15:37:56.525503
- Title: Knowledge-Enhanced Hierarchical Information Correlation Learning for
Multi-Modal Rumor Detection
- Title(参考訳): マルチモーダルうわさ検出のための知識強化階層型情報相関学習
- Authors: Jiawei Liu, Jingyi Xie, Fanrui Zhang, Qiang Zhang, Zheng-jun Zha
- Abstract要約: マルチモーダルなうわさ検出のための知識強化型階層型情報相関学習手法(KhiCL)を提案する。
KhiCLは異質な一様性特徴を共通特徴空間に伝達するために、クロスモーダルな関節辞書を利用する。
画像やテキストから視覚的およびテキスト的実体を抽出し、知識関連推論戦略を設計する。
- 参考スコア(独自算出の注目度): 82.94413676131545
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The explosive growth of rumors with text and images on social media platforms
has drawn great attention. Existing studies have made significant contributions
to cross-modal information interaction and fusion, but they fail to fully
explore hierarchical and complex semantic correlation across different modality
content, severely limiting their performance on detecting multi-modal rumor. In
this work, we propose a novel knowledge-enhanced hierarchical information
correlation learning approach (KhiCL) for multi-modal rumor detection by
jointly modeling the basic semantic correlation and high-order
knowledge-enhanced entity correlation. Specifically, KhiCL exploits cross-modal
joint dictionary to transfer the heterogeneous unimodality features into the
common feature space and captures the basic cross-modal semantic consistency
and inconsistency by a cross-modal fusion layer. Moreover, considering the
description of multi-modal content is narrated around entities, KhiCL extracts
visual and textual entities from images and text, and designs a knowledge
relevance reasoning strategy to find the shortest semantic relevant path
between each pair of entities in external knowledge graph, and absorbs all
complementary contextual knowledge of other connected entities in this path for
learning knowledge-enhanced entity representations. Furthermore, KhiCL utilizes
a signed attention mechanism to model the knowledge-enhanced entity consistency
and inconsistency of intra-modality and inter-modality entity pairs by
measuring their corresponding semantic relevant distance. Extensive experiments
have demonstrated the effectiveness of the proposed method.
- Abstract(参考訳): ソーシャルメディア上のテキストや画像による噂の爆発的な成長は、大きな注目を集めている。
既存の研究は、クロスモーダル情報インタラクションと融合に多大な貢献をしてきたが、異なるモダリティコンテンツ間の階層的および複雑な意味的相関を十分に探求できず、マルチモーダルなうわさを検出する際の性能を厳しく制限している。
本研究では,基本意味相関と高次知識相関を共同でモデル化し,マルチモーダルうわさ検出のための知識エンハンスド階層情報相関学習手法(khicl)を提案する。
具体的には、KhiCLはクロスモーダル結合辞書を利用して、異種一様特徴を共通特徴空間に伝達し、クロスモーダル融合層によって基本的なクロスモーダル意味的一貫性と矛盾を捉える。
さらに、マルチモーダルコンテンツの記述をエンティティを中心に考えると、KhiCLは画像やテキストから視覚的およびテキスト的エンティティを抽出し、知識関連推論戦略を設計し、外部知識グラフ内の各エンティティ間の最も短い意味的関連パスを見つけ、この経路で他の連結エンティティの補完的なコンテキスト的知識をすべて吸収して知識強化エンティティ表現を学習する。
さらに、KhiCLは署名された注意機構を用いて、その対応する意味的関連距離を測定することで、モダリティ内およびモダリティ間エンティティペアの知識強化エンティティ一貫性と矛盾をモデル化する。
提案手法の有効性を実験により実証した。
関連論文リスト
- MetaHGNIE: Meta-Path Induced Hypergraph Contrastive Learning in Heterogeneous Knowledge Graphs [16.36978652807043]
本稿ではメタパスによるハイパーグラフ学習フレームワークであるMetaHGNIEを提案する。
本結果は,異種知識グラフにおける高次相互作用と相互アライメントを明示的にモデル化することの有効性を強調した。
論文 参考訳(メタデータ) (2025-12-13T22:21:33Z) - Semantic-Cohesive Knowledge Distillation for Deep Cross-modal Hashing [10.129088110563345]
本稿では,SODAと呼ばれる深部断熱処理のための新しい意味結合型知識蒸留法を提案する。
画像モダリティとラベルモダリティ間のクロスモーダルな意味的特性を効果的に蒸留し、画像モダリティのためのよくマッピングされたハミング空間を学習するために、クロスモーダルな教師ネットワークが考案された。
ある意味では、このようなハミング空間は、学生間のネットワークの学習をガイドし、画像とテキストのモダリティのセマンティックな類似性を包括的に保存する、一種の事前知識と見なすことができる。
論文 参考訳(メタデータ) (2025-10-07T18:07:02Z) - Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。
モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文 参考訳(メタデータ) (2025-09-26T14:39:13Z) - Structures Meet Semantics: Multimodal Fusion via Graph Contrastive Learning [8.187594234413568]
SSU(Structure-Semantic Unifier)と呼ばれる新しいフレームワークを提案する。
SSUは、モダリティ固有の構造情報と、拡張マルチモーダル表現のためのクロスモーダルセマンティックグラウンドを統合している。
SSUは一貫して最先端の性能を実現し、計算オーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2025-08-24T13:44:54Z) - A Cross-Modal Rumor Detection Scheme via Contrastive Learning by Exploring Text and Image internal Correlations [15.703292627605304]
コントラスト学習に基づくクロスモーダルなうわさ検出手法を提案する。
スケールアウェア・フュージョンネットワークは,高精細なマルチスケール画像機能とグローバルテキスト機能を統合するように設計されている。
実験結果から,噂検出における既存の最先端手法よりも大幅な性能向上が得られた。
論文 参考訳(メタデータ) (2025-08-15T01:13:50Z) - Co-AttenDWG: Co-Attentive Dimension-Wise Gating and Expert Fusion for Multi-Modal Offensive Content Detection [0.0]
マルチモーダル学習は重要な研究の方向性として浮上している。
既存のアプローチは、しばしばクロスモーダル相互作用の不足と固い融合戦略に悩まされる。
本稿では,Co-AttenDWGを提案する。
我々は,Co-AttenDWGが最先端性能と優れたクロスモーダルアライメントを実現することを示す。
論文 参考訳(メタデータ) (2025-05-25T07:26:00Z) - Re-mine, Learn and Reason: Exploring the Cross-modal Semantic
Correlations for Language-guided HOI detection [57.13665112065285]
ヒューマンオブジェクトインタラクション(HOI)検出は、コンピュータビジョンの課題である。
本稿では,構造化テキスト知識を組み込んだHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T14:20:52Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Multimodal Relation Extraction with Cross-Modal Retrieval and Synthesis [89.04041100520881]
本研究は,対象物,文,画像全体に基づいて,テキストおよび視覚的証拠を検索することを提案する。
我々は,オブジェクトレベル,画像レベル,文レベル情報を合成し,同一性と異なるモダリティ間の推論を改善する新しい手法を開発した。
論文 参考訳(メタデータ) (2023-05-25T15:26:13Z) - CLIP-Driven Fine-grained Text-Image Person Re-identification [50.94827165464813]
TIReIDは、候補画像のプールから与えられたテキストクエリに対応する画像を取得することを目的としている。
TIReIDにおけるCLIPの強力な知識をフル活用するための,CLIP駆動のきめ細かい情報抽出フレームワーク(CFine)を提案する。
論文 参考訳(メタデータ) (2022-10-19T03:43:12Z) - Learning Attention-based Representations from Multiple Patterns for
Relation Prediction in Knowledge Graphs [2.4028383570062606]
AEMPは、エンティティのコンテキスト情報を取得することによって、コンテキスト化された表現を学習するための新しいモデルである。
AEMPは、最先端の関係予測手法よりも優れるか、競合する。
論文 参考訳(メタデータ) (2022-06-07T10:53:35Z) - VLCDoC: Vision-Language Contrastive Pre-Training Model for Cross-Modal
Document Classification [3.7798600249187295]
文書データからのマルチモーダル学習は、前もって意味論的に意味のある機能を学習可能な下流タスクに事前学習可能にすることで、近年大きな成功を収めている。
本稿では,言語と視覚の手がかりを通したクロスモーダル表現の学習により,文書分類問題にアプローチする。
提案手法は,ハイレベルなインタラクションを利用して,モダリティ内外における効果的な注意の流れから関連する意味情報を学習する。
論文 参考訳(メタデータ) (2022-05-24T12:28:12Z) - Hierarchical Cross-Modality Semantic Correlation Learning Model for
Multimodal Summarization [4.714335699701277]
マルチモーダル出力(MSMO)によるマルチモーダル要約は、テキストコンテンツとビジュアルコンテンツの両方で要約を生成する。
従来のMSMOメソッドは、データ全体の表現を学習することで、異なるデータモダリティを区別できない方法で処理する。
マルチモーダルデータに存在するモーダル内およびモーダル間相関を学習するための階層的相互モーダル意味相関学習モデル(HCSCL)を提案する。
論文 参考訳(メタデータ) (2021-12-16T01:46:30Z) - Learning Relation Alignment for Calibrated Cross-modal Retrieval [52.760541762871505]
言語的・視覚的関係のセマンティックな距離を計測し,関係の一貫性を定量化するための新しい指標ISD(Intra-modal Self-attention Distance)を提案する。
ISDを最適化し、モダル間アライメントを介してモダル内アライメントを相互に調整するための正規化訓練法である、モダル内アライメント(IAIS)について述べる。
論文 参考訳(メタデータ) (2021-05-28T14:25:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。