論文の概要: MyGO: Discrete Modality Information as Fine-Grained Tokens for Multi-modal Knowledge Graph Completion
- arxiv url: http://arxiv.org/abs/2404.09468v1
- Date: Mon, 15 Apr 2024 05:40:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 13:48:50.463773
- Title: MyGO: Discrete Modality Information as Fine-Grained Tokens for Multi-modal Knowledge Graph Completion
- Title(参考訳): MyGO: マルチモーダル知識グラフ補完のための微粒化トークンとしてのモジュール情報の離散化
- Authors: Yichi Zhang, Zhuo Chen, Lingbing Guo, Yajing Xu, Binbin Hu, Ziqi Liu, Huajun Chen, Wen Zhang,
- Abstract要約: MMKGの微細なモダリティ情報を処理・融合・拡張するためにMyGOを導入する。
MyGOは、マルチモーダルな生データをきめ細かい離散トークンとしてトークン化し、クロスモーダルなエンティティエンコーダでエンティティ表現を学習する。
標準MMKGCベンチマーク実験により,本手法が最新の20モデルを上回ることがわかった。
- 参考スコア(独自算出の注目度): 51.80447197290866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal knowledge graphs (MMKG) store structured world knowledge containing rich multi-modal descriptive information. To overcome their inherent incompleteness, multi-modal knowledge graph completion (MMKGC) aims to discover unobserved knowledge from given MMKGs, leveraging both structural information from the triples and multi-modal information of the entities. Existing MMKGC methods usually extract multi-modal features with pre-trained models and employ a fusion module to integrate multi-modal features with triple prediction. However, this often results in a coarse handling of multi-modal data, overlooking the nuanced, fine-grained semantic details and their interactions. To tackle this shortfall, we introduce a novel framework MyGO to process, fuse, and augment the fine-grained modality information from MMKGs. MyGO tokenizes multi-modal raw data as fine-grained discrete tokens and learns entity representations with a cross-modal entity encoder. To further augment the multi-modal representations, MyGO incorporates fine-grained contrastive learning to highlight the specificity of the entity representations. Experiments on standard MMKGC benchmarks reveal that our method surpasses 20 of the latest models, underlining its superior performance. Code and data are available at https://github.com/zjukg/MyGO
- Abstract(参考訳): マルチモーダル知識グラフ(MMKG)は、豊富なマルチモーダル記述情報を含む構造化世界知識を格納する。
これらの不完全性を克服するために、マルチモーダル知識グラフ補完(MMKGC)は、与えられたMMKGから観測されていない知識を発見し、三重項からの構造情報とエンティティのマルチモーダル情報の両方を活用することを目的としている。
既存のMMKGC法は、通常、事前訓練されたモデルでマルチモーダル特徴を抽出し、融合モジュールを用いて3重予測でマルチモーダル特徴を統合する。
しかし、これはしばしば、微妙できめ細かなセマンティックな詳細とそれらの相互作用を見渡すことで、マルチモーダルデータの粗い処理をもたらす。
この欠点に対処するため,MMKGからの微細なモダリティ情報を処理し,融合し,拡張する新しいフレームワークであるMyGOを紹介した。
MyGOは、マルチモーダルな生データをきめ細かい離散トークンとしてトークン化し、クロスモーダルなエンティティエンコーダでエンティティ表現を学習する。
マルチモーダル表現をさらに強化するために、MyGOは、エンティティ表現の特異性を強調するために、きめ細かいコントラスト学習を取り入れている。
標準MMKGCベンチマーク実験により,提案手法は最新の20モデルを超え,優れた性能を実証した。
コードとデータはhttps://github.com/zjukg/MyGOで公開されている。
関連論文リスト
- The Power of Noise: Toward a Unified Multi-modal Knowledge Graph Representation Framework [46.69058301083775]
マルチモーダルな知識グラフ(MMKG)表現学習フレームワークは,構造化された知識を大規模に多モーダルな言語モデル(LLM)に統合するために重要である。
モードレベルのノイズマスキングを備えたトランスフォーマーアーキテクチャを用いた新しいSNAG手法を提案する。
提案手法は,その堅牢性と汎用性を実証し,合計10データセットにわたるSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-03-11T15:48:43Z) - Unleashing the Power of Imbalanced Modality Information for Multi-modal
Knowledge Graph Completion [40.86196588992357]
マルチモーダル知識グラフ補完(MMKGC)は、マルチモーダル知識グラフの欠落三重項を予測することを目的としている。
適応型マルチモーダルフュージョン・モダリティ・アディショナル・トレーニング(AdaMF-MAT)を提案し,不均衡なモダリティ情報のパワーを解き放つ。
提案手法はMMKGCモデルとトレーニング戦略の共同設計であり,近年のMMKGC手法を上回りうる。
論文 参考訳(メタデータ) (2024-02-22T05:48:03Z) - Incorporating Domain Knowledge Graph into Multimodal Movie Genre
Classification with Self-Supervised Attention and Contrastive Learning [14.729059909487072]
本稿では,これらの課題に対処するために,知識グラフを様々な視点から活用する新しい枠組みを提案する。
本稿では,自己指導型学習に基づく注意割当のための意識教師モジュールを提案する。
最後に、融合特徴の識別能力を高めるために、Genre-Centroid Anchored Contrastive Learningモジュールを提案する。
論文 参考訳(メタデータ) (2023-10-12T04:49:11Z) - MACO: A Modality Adversarial and Contrastive Framework for
Modality-missing Multi-modal Knowledge Graph Completion [18.188971531961663]
本稿では,MMKGCにおけるモダリティ欠落問題を解決するために,モダリティ対向・コントラッシブ・フレームワーク(MACO)を提案する。
MACOは、MMKGCモデルに組み込むことができる欠落したモダリティ特徴を生成するために、ジェネレータと識別器を逆さまに訓練する。
論文 参考訳(メタデータ) (2023-08-13T06:29:38Z) - Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph
Propagation [68.13453771001522]
画像の領域と対応するセマンティック埋め込みとをマッチングする多モード集中型ZSLフレームワークを提案する。
我々は、大規模な実世界のデータに基づいて、広範囲な実験を行い、そのモデルを評価する。
論文 参考訳(メタデータ) (2023-06-14T13:07:48Z) - Information Screening whilst Exploiting! Multimodal Relation Extraction
with Feature Denoising and Multimodal Topic Modeling [96.75821232222201]
既存のマルチモーダル関係抽出(MRE)研究は、内部情報過剰利用と外部情報過多という2つの共存課題に直面している。
内部情報スクリーニングと外部情報活用を同時に実現する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:57Z) - Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge
Graph Completion [112.27103169303184]
マルチモーダル知識グラフ(MKG)は、視覚テキストの事実知識を整理する。
MKGformerは、マルチモーダルリンク予測、マルチモーダルRE、マルチモーダルNERの4つのデータセット上でSOTA性能を得ることができる。
論文 参考訳(メタデータ) (2022-05-04T23:40:04Z) - A Novel Graph-based Multi-modal Fusion Encoder for Neural Machine
Translation [131.33610549540043]
NMTのための新しいグラフベースのマルチモーダル核融合エンコーダを提案する。
まず、統合マルチモーダルグラフを用いて、入力文と画像を表す。
次に、複数のグラフベースのマルチモーダル融合層を積み重ねて、ノード表現を学習するためのセマンティックな相互作用を反復的に実行する。
論文 参考訳(メタデータ) (2020-07-17T04:06:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。