論文の概要: Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge
Graph Completion
- arxiv url: http://arxiv.org/abs/2205.02357v5
- Date: Mon, 18 Sep 2023 16:37:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 02:02:56.808355
- Title: Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge
Graph Completion
- Title(参考訳): マルチモード知識グラフ補完のためのマルチレベル融合型ハイブリッドトランス
- Authors: Xiang Chen, Ningyu Zhang, Lei Li, Shumin Deng, Chuanqi Tan, Changliang
Xu, Fei Huang, Luo Si, Huajun Chen
- Abstract要約: マルチモーダル知識グラフ(MKG)は、視覚テキストの事実知識を整理する。
MKGformerは、マルチモーダルリンク予測、マルチモーダルRE、マルチモーダルNERの4つのデータセット上でSOTA性能を得ることができる。
- 参考スコア(独自算出の注目度): 112.27103169303184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Knowledge Graphs (MKGs), which organize visual-text factual
knowledge, have recently been successfully applied to tasks such as information
retrieval, question answering, and recommendation system. Since most MKGs are
far from complete, extensive knowledge graph completion studies have been
proposed focusing on the multimodal entity, relation extraction and link
prediction. However, different tasks and modalities require changes to the
model architecture, and not all images/objects are relevant to text input,
which hinders the applicability to diverse real-world scenarios. In this paper,
we propose a hybrid transformer with multi-level fusion to address those
issues. Specifically, we leverage a hybrid transformer architecture with
unified input-output for diverse multimodal knowledge graph completion tasks.
Moreover, we propose multi-level fusion, which integrates visual and text
representation via coarse-grained prefix-guided interaction and fine-grained
correlation-aware fusion modules. We conduct extensive experiments to validate
that our MKGformer can obtain SOTA performance on four datasets of multimodal
link prediction, multimodal RE, and multimodal NER. Code is available in
https://github.com/zjunlp/MKGformer.
- Abstract(参考訳): 視覚テキストの事実知識を整理するマルチモーダル知識グラフ(MKG)は近年,情報検索や質問応答,レコメンデーションシステムといったタスクにうまく適用されている。
ほとんどのmkgは完成にはほど遠いため、マルチモーダルエンティティ、関係抽出、リンク予測に焦点をあてた広範な知識グラフ補完研究が提案されている。
しかし、異なるタスクやモダリティはモデルアーキテクチャの変更を必要とし、全ての画像やオブジェクトがテキスト入力に関連しているわけではないため、様々な現実世界のシナリオに適用できない。
本稿では,これらの問題に対処する多層融合型ハイブリッドトランスを提案する。
具体的には,多様なマルチモーダルナレッジグラフ補完タスクに対して,統一入力出力を用いたハイブリッドトランスフォーマティブアーキテクチャを活用する。
さらに、粗い接頭辞誘導相互作用と微粒な相関認識融合モジュールによる視覚とテキストの表現を統合する多層融合を提案する。
我々は,マルチモーダルリンク予測,マルチモーダルre,マルチモーダルnerの4つのデータセット上で,mkgformerがsota性能を得ることができることを検証するために,広範な実験を行った。
コードはhttps://github.com/zjunlp/MKGformerで入手できる。
関連論文リスト
- StitchFusion: Weaving Any Visual Modalities to Enhance Multimodal Semantic Segmentation [63.31007867379312]
我々は,大規模な事前学習モデルを直接エンコーダや機能フューザとして統合するフレームワークであるStitchFusionを提案する。
我々は,エンコーディング中に多方向アダプタモジュール(MultiAdapter)を導入し,モーダル間情報転送を実現する。
本モデルは,最小限の追加パラメータを持つ4つのマルチモーダルセグメンテーションデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-02T15:41:16Z) - Multimodal Information Interaction for Medical Image Segmentation [24.024848382458767]
革新的マルチモーダル情報クロストランス(MicFormer)について紹介する。
あるモダリティから特徴を問合せし、対応する応答を別のモダリティから取り出し、バイモーダル特徴間の効果的なコミュニケーションを容易にする。
他のマルチモーダルセグメンテーション手法と比較して,本手法はそれぞれ2.83と4.23のマージンで優れていた。
論文 参考訳(メタデータ) (2024-04-25T07:21:14Z) - NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。
NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。
提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-03-28T03:04:00Z) - Multi-Modal Knowledge Graph Transformer Framework for Multi-Modal Entity
Alignment [17.592908862768425]
そこで我々はMoAlignと呼ばれる新しいMMEA変換器を提案し,その特徴,マルチモーダル属性,エンティティタイプを階層的に導入する。
変換器の複数の情報をよりよく統合する能力を利用して、変換器エンコーダの階層的修飾自己保持ブロックを設計する。
当社のアプローチは強力な競争相手よりも優れ,優れたエンティティアライメント性能を実現している。
論文 参考訳(メタデータ) (2023-10-10T07:06:06Z) - Deep Equilibrium Multimodal Fusion [88.04713412107947]
多重モーダル融合は、複数のモーダルに存在する相補的な情報を統合し、近年多くの注目を集めている。
本稿では,動的多モード核融合プロセスの固定点を求めることにより,多モード核融合に対する新しいDeep equilibrium (DEQ)法を提案する。
BRCA,MM-IMDB,CMU-MOSI,SUN RGB-D,VQA-v2の実験により,DEC融合の優位性が示された。
論文 参考訳(メタデータ) (2023-06-29T03:02:20Z) - Multimodal Token Fusion for Vision Transformers [54.81107795090239]
変換器を用いた視覚タスクのためのマルチモーダルトークン融合法(TokenFusion)を提案する。
複数のモダリティを効果的に融合させるために、TokenFusionは動的に非形式的トークンを検出し、これらのトークンを投影および集約されたモジュール間特徴に置き換える。
TokenFusionの設計により、トランスフォーマーはマルチモーダル特徴間の相関を学習できるが、シングルモーダルトランスアーキテクチャはほとんど無傷である。
論文 参考訳(メタデータ) (2022-04-19T07:47:50Z) - Multimodal Image Synthesis and Editing: The Generative AI Era [131.9569600472503]
マルチモーダル画像合成と編集は 近年 ホットな研究テーマになっている。
近年のマルチモーダル画像合成・編集の進歩を包括的に理解している。
ベンチマークデータセットと評価指標と,それに対応する実験結果について述べる。
論文 参考訳(メタデータ) (2021-12-27T10:00:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。