Fugu-MT 論文翻訳(概要): Knowledge-Enhanced Hierarchical Information Correlation Learning for Multi-Modal Rumor Detection

論文の概要: Knowledge-Enhanced Hierarchical Information Correlation Learning for Multi-Modal Rumor Detection

arxiv url: http://arxiv.org/abs/2306.15946v1
Date: Wed, 28 Jun 2023 06:08:20 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-29 15:37:56.525503
Title: Knowledge-Enhanced Hierarchical Information Correlation Learning for Multi-Modal Rumor Detection
Title（参考訳）: マルチモーダルうわさ検出のための知識強化階層型情報相関学習
Authors: Jiawei Liu, Jingyi Xie, Fanrui Zhang, Qiang Zhang, Zheng-jun Zha
Abstract要約: マルチモーダルなうわさ検出のための知識強化型階層型情報相関学習手法(KhiCL)を提案する。 KhiCLは異質な一様性特徴を共通特徴空間に伝達するために、クロスモーダルな関節辞書を利用する。画像やテキストから視覚的およびテキスト的実体を抽出し、知識関連推論戦略を設計する。
参考スコア（独自算出の注目度）: 82.94413676131545
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The explosive growth of rumors with text and images on social media platforms has drawn great attention. Existing studies have made significant contributions to cross-modal information interaction and fusion, but they fail to fully explore hierarchical and complex semantic correlation across different modality content, severely limiting their performance on detecting multi-modal rumor. In this work, we propose a novel knowledge-enhanced hierarchical information correlation learning approach (KhiCL) for multi-modal rumor detection by jointly modeling the basic semantic correlation and high-order knowledge-enhanced entity correlation. Specifically, KhiCL exploits cross-modal joint dictionary to transfer the heterogeneous unimodality features into the common feature space and captures the basic cross-modal semantic consistency and inconsistency by a cross-modal fusion layer. Moreover, considering the description of multi-modal content is narrated around entities, KhiCL extracts visual and textual entities from images and text, and designs a knowledge relevance reasoning strategy to find the shortest semantic relevant path between each pair of entities in external knowledge graph, and absorbs all complementary contextual knowledge of other connected entities in this path for learning knowledge-enhanced entity representations. Furthermore, KhiCL utilizes a signed attention mechanism to model the knowledge-enhanced entity consistency and inconsistency of intra-modality and inter-modality entity pairs by measuring their corresponding semantic relevant distance. Extensive experiments have demonstrated the effectiveness of the proposed method.
Abstract（参考訳）: ソーシャルメディア上のテキストや画像による噂の爆発的な成長は、大きな注目を集めている。既存の研究は、クロスモーダル情報インタラクションと融合に多大な貢献をしてきたが、異なるモダリティコンテンツ間の階層的および複雑な意味的相関を十分に探求できず、マルチモーダルなうわさを検出する際の性能を厳しく制限している。本研究では,基本意味相関と高次知識相関を共同でモデル化し,マルチモーダルうわさ検出のための知識エンハンスド階層情報相関学習手法(khicl)を提案する。具体的には、KhiCLはクロスモーダル結合辞書を利用して、異種一様特徴を共通特徴空間に伝達し、クロスモーダル融合層によって基本的なクロスモーダル意味的一貫性と矛盾を捉える。さらに、マルチモーダルコンテンツの記述をエンティティを中心に考えると、KhiCLは画像やテキストから視覚的およびテキスト的エンティティを抽出し、知識関連推論戦略を設計し、外部知識グラフ内の各エンティティ間の最も短い意味的関連パスを見つけ、この経路で他の連結エンティティの補完的なコンテキスト的知識をすべて吸収して知識強化エンティティ表現を学習する。さらに、KhiCLは署名された注意機構を用いて、その対応する意味的関連距離を測定することで、モダリティ内およびモダリティ間エンティティペアの知識強化エンティティ一貫性と矛盾をモデル化する。提案手法の有効性を実験により実証した。

関連論文リスト

Co-AttenDWG: Co-Attentive Dimension-Wise Gating and Expert Fusion for Multi-Modal Offensive Content Detection [0.0]
マルチモーダル学習は重要な研究の方向性として浮上している。既存のアプローチは、しばしばクロスモーダル相互作用の不足と固い融合戦略に悩まされる。本稿では,Co-AttenDWGを提案する。我々は,Co-AttenDWGが最先端性能と優れたクロスモーダルアライメントを実現することを示す。
論文参考訳（メタデータ） (2025-05-25T07:26:00Z)
Re-mine, Learn and Reason: Exploring the Cross-modal Semantic Correlations for Language-guided HOI detection [57.13665112065285]
ヒューマンオブジェクトインタラクション(HOI)検出は、コンピュータビジョンの課題である。本稿では,構造化テキスト知識を組み込んだHOI検出フレームワークを提案する。
論文参考訳（メタデータ） (2023-07-25T14:20:52Z)
Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。 MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文参考訳（メタデータ） (2023-07-19T02:11:19Z)
Multimodal Relation Extraction with Cross-Modal Retrieval and Synthesis [89.04041100520881]
本研究は,対象物,文,画像全体に基づいて,テキストおよび視覚的証拠を検索することを提案する。我々は,オブジェクトレベル,画像レベル,文レベル情報を合成し,同一性と異なるモダリティ間の推論を改善する新しい手法を開発した。
論文参考訳（メタデータ） (2023-05-25T15:26:13Z)
CLIP-Driven Fine-grained Text-Image Person Re-identification [50.94827165464813]
TIReIDは、候補画像のプールから与えられたテキストクエリに対応する画像を取得することを目的としている。 TIReIDにおけるCLIPの強力な知識をフル活用するための,CLIP駆動のきめ細かい情報抽出フレームワーク(CFine)を提案する。
論文参考訳（メタデータ） (2022-10-19T03:43:12Z)
Learning Attention-based Representations from Multiple Patterns for Relation Prediction in Knowledge Graphs [2.4028383570062606]
AEMPは、エンティティのコンテキスト情報を取得することによって、コンテキスト化された表現を学習するための新しいモデルである。 AEMPは、最先端の関係予測手法よりも優れるか、競合する。
論文参考訳（メタデータ） (2022-06-07T10:53:35Z)
VLCDoC: Vision-Language Contrastive Pre-Training Model for Cross-Modal Document Classification [3.7798600249187295]
文書データからのマルチモーダル学習は、前もって意味論的に意味のある機能を学習可能な下流タスクに事前学習可能にすることで、近年大きな成功を収めている。本稿では,言語と視覚の手がかりを通したクロスモーダル表現の学習により,文書分類問題にアプローチする。提案手法は,ハイレベルなインタラクションを利用して,モダリティ内外における効果的な注意の流れから関連する意味情報を学習する。
論文参考訳（メタデータ） (2022-05-24T12:28:12Z)
Hierarchical Cross-Modality Semantic Correlation Learning Model for Multimodal Summarization [4.714335699701277]
マルチモーダル出力(MSMO)によるマルチモーダル要約は、テキストコンテンツとビジュアルコンテンツの両方で要約を生成する。従来のMSMOメソッドは、データ全体の表現を学習することで、異なるデータモダリティを区別できない方法で処理する。マルチモーダルデータに存在するモーダル内およびモーダル間相関を学習するための階層的相互モーダル意味相関学習モデル(HCSCL)を提案する。
論文参考訳（メタデータ） (2021-12-16T01:46:30Z)
Learning Relation Alignment for Calibrated Cross-modal Retrieval [52.760541762871505]
言語的・視覚的関係のセマンティックな距離を計測し,関係の一貫性を定量化するための新しい指標ISD(Intra-modal Self-attention Distance)を提案する。 ISDを最適化し、モダル間アライメントを介してモダル内アライメントを相互に調整するための正規化訓練法である、モダル内アライメント(IAIS)について述べる。
論文参考訳（メタデータ） (2021-05-28T14:25:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。