Fugu-MT 論文翻訳(概要): IMF: Interactive Multimodal Fusion Model for Link Prediction

論文の概要: IMF: Interactive Multimodal Fusion Model for Link Prediction

arxiv url: http://arxiv.org/abs/2303.10816v1
Date: Mon, 20 Mar 2023 01:20:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-21 17:09:08.138280
Title: IMF: Interactive Multimodal Fusion Model for Link Prediction
Title（参考訳）: imf:リンク予測のための対話型マルチモーダル融合モデル
Authors: Xinhang Li, Xiangyu Zhao, Jiaxing Xu, Yong Zhang, Chunxiao Xing
Abstract要約: 異なるモダリティからの知識を統合するために,インタラクティブ・マルチモーダル・フュージョン(IMF)モデルを導入する。提案手法は,実世界の複数のデータセットに対する経験的評価によって有効であることが実証された。
参考スコア（独自算出の注目度）: 13.766345726697404
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Link prediction aims to identify potential missing triples in knowledge graphs. To get better results, some recent studies have introduced multimodal information to link prediction. However, these methods utilize multimodal information separately and neglect the complicated interaction between different modalities. In this paper, we aim at better modeling the inter-modality information and thus introduce a novel Interactive Multimodal Fusion (IMF) model to integrate knowledge from different modalities. To this end, we propose a two-stage multimodal fusion framework to preserve modality-specific knowledge as well as take advantage of the complementarity between different modalities. Instead of directly projecting different modalities into a unified space, our multimodal fusion module limits the representations of different modalities independent while leverages bilinear pooling for fusion and incorporates contrastive learning as additional constraints. Furthermore, the decision fusion module delivers the learned weighted average over the predictions of all modalities to better incorporate the complementarity of different modalities. Our approach has been demonstrated to be effective through empirical evaluations on several real-world datasets. The implementation code is available online at https://github.com/HestiaSky/IMF-Pytorch.
Abstract（参考訳）: リンク予測は、知識グラフの欠落三重項を特定することを目的としている。より良い結果を得るために、最近の研究では、予測をリンクするためにマルチモーダル情報を導入した。しかし、これらの手法は個別にマルチモーダル情報を利用し、異なるモーダル間の複雑な相互作用を無視する。本稿では,モダリティ間の情報より優れたモデリングを目指しており,異なるモダリティからの知識を統合するためのインタラクティブ・マルチモーダル・フュージョン(IMF)モデルを導入する。この目的のために,モダリティ固有の知識を保存し,異なるモダリティ間の相補性を利用した2段階のマルチモーダル融合フレームワークを提案する。異なるモダリティを統一空間に直接投影する代わりに、我々のマルチモーダル融合モジュールは異なるモダリティの表現を独立に制限する一方で、融合のための双線型プーリングを活用し、コントラスト学習を追加の制約として取り入れる。さらに、決定融合モジュールは、学習された重み付き平均を全てのモダリティの予測の上に提供し、異なるモダリティの相補性をうまく組み込む。提案手法は,実世界の複数のデータセットに対する経験的評価によって有効であることが実証された。実装コードはhttps://github.com/hestiasky/imf-pytorchで入手できる。

関連論文リスト

M$^3$amba: CLIP-driven Mamba Model for Multi-modal Remote Sensing Classification [23.322598623627222]
M$3$ambaは、マルチモーダル融合のための新しいエンドツーエンドのCLIP駆動のMambaモデルである。異なるモダリティの包括的セマンティック理解を実現するために,CLIP駆動型モダリティ固有アダプタを提案する。実験の結果、M$3$ambaは最先端の手法と比較して平均5.98%の性能向上が見られた。
論文参考訳（メタデータ） (2025-03-09T05:06:47Z)
What to align in multimodal contrastive learning? [7.7439394183358745]
単一マルチモーダル空間におけるモダリティ間の通信を可能にするコントラスト型マルチモーダル学習戦略を導入する。この定式化から,情報共有,相乗的,一意的な用語が自然に出現し,冗長性を超えたマルチモーダル相互作用を推定できることを示す。後者では、CoMMは複雑なマルチモーダル相互作用を学び、6つのマルチモーダルベンチマークで最先端の結果を得る。
論文参考訳（メタデータ） (2024-09-11T16:42:22Z)
DiffMM: Multi-Modal Diffusion Model for Recommendation [19.43775593283657]
DiffMMと呼ばれる新しいマルチモーダルグラフ拡散モデルを提案する。本フレームワークは,モダリティを意識したグラフ拡散モデルとクロスモーダルコントラスト学習パラダイムを統合し,モダリティを意識したユーザ表現学習を改善する。
論文参考訳（メタデータ） (2024-06-17T17:35:54Z)
U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-05-24T08:58:48Z)
Leveraging Intra-modal and Inter-modal Interaction for Multi-Modal Entity Alignment [27.28214706269035]
マルチモーダル・エンティティ・アライメント(MMEA)は、異なるマルチモーダル・ナレッジ・グラフ(MMKG)間で等価なエンティティ・ペアを識別することを目的としている。本稿では,マルチモーダルエンティティアライメントのための多言語インタラクションフレームワークを提案する。
論文参考訳（メタデータ） (2024-04-19T08:43:11Z)
NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。 NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文参考訳（メタデータ） (2024-03-28T03:04:00Z)
Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。 MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文参考訳（メタデータ） (2023-11-17T18:57:40Z)
Self-MI: Efficient Multimodal Fusion via Self-Supervised Multi-Task Learning with Auxiliary Mutual Information Maximization [2.4660652494309936]
マルチモーダル表現学習は重要な課題である。既存の手法は、しばしば各モダリティの固有の特性を利用するのに苦労する。本研究では,自己教師型学習方式のセルフMIを提案する。
論文参考訳（メタデータ） (2023-11-07T08:10:36Z)
Unified Multi-modal Unsupervised Representation Learning for Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。 UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文参考訳（メタデータ） (2023-11-06T13:56:57Z)
Deep Equilibrium Multimodal Fusion [88.04713412107947]
多重モーダル融合は、複数のモーダルに存在する相補的な情報を統合し、近年多くの注目を集めている。本稿では,動的多モード核融合プロセスの固定点を求めることにより,多モード核融合に対する新しいDeep equilibrium (DEQ)法を提案する。 BRCA,MM-IMDB,CMU-MOSI,SUN RGB-D,VQA-v2の実験により,DEC融合の優位性が示された。
論文参考訳（メタデータ） (2023-06-29T03:02:20Z)
Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文参考訳（メタデータ） (2021-07-28T23:33:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。