論文の概要: MyGO: Discrete Modality Information as Fine-Grained Tokens for Multi-modal Knowledge Graph Completion
- arxiv url: http://arxiv.org/abs/2404.09468v1
- Date: Mon, 15 Apr 2024 05:40:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 13:48:50.463773
- Title: MyGO: Discrete Modality Information as Fine-Grained Tokens for Multi-modal Knowledge Graph Completion
- Title(参考訳): MyGO: マルチモーダル知識グラフ補完のための微粒化トークンとしてのモジュール情報の離散化
- Authors: Yichi Zhang, Zhuo Chen, Lingbing Guo, Yajing Xu, Binbin Hu, Ziqi Liu, Huajun Chen, Wen Zhang,
- Abstract要約: MMKGの微細なモダリティ情報を処理・融合・拡張するためにMyGOを導入する。
MyGOは、マルチモーダルな生データをきめ細かい離散トークンとしてトークン化し、クロスモーダルなエンティティエンコーダでエンティティ表現を学習する。
標準MMKGCベンチマーク実験により,本手法が最新の20モデルを上回ることがわかった。
- 参考スコア(独自算出の注目度): 51.80447197290866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal knowledge graphs (MMKG) store structured world knowledge containing rich multi-modal descriptive information. To overcome their inherent incompleteness, multi-modal knowledge graph completion (MMKGC) aims to discover unobserved knowledge from given MMKGs, leveraging both structural information from the triples and multi-modal information of the entities. Existing MMKGC methods usually extract multi-modal features with pre-trained models and employ a fusion module to integrate multi-modal features with triple prediction. However, this often results in a coarse handling of multi-modal data, overlooking the nuanced, fine-grained semantic details and their interactions. To tackle this shortfall, we introduce a novel framework MyGO to process, fuse, and augment the fine-grained modality information from MMKGs. MyGO tokenizes multi-modal raw data as fine-grained discrete tokens and learns entity representations with a cross-modal entity encoder. To further augment the multi-modal representations, MyGO incorporates fine-grained contrastive learning to highlight the specificity of the entity representations. Experiments on standard MMKGC benchmarks reveal that our method surpasses 20 of the latest models, underlining its superior performance. Code and data are available at https://github.com/zjukg/MyGO
- Abstract(参考訳): マルチモーダル知識グラフ(MMKG)は、豊富なマルチモーダル記述情報を含む構造化世界知識を格納する。
これらの不完全性を克服するために、マルチモーダル知識グラフ補完(MMKGC)は、与えられたMMKGから観測されていない知識を発見し、三重項からの構造情報とエンティティのマルチモーダル情報の両方を活用することを目的としている。
既存のMMKGC法は、通常、事前訓練されたモデルでマルチモーダル特徴を抽出し、融合モジュールを用いて3重予測でマルチモーダル特徴を統合する。
しかし、これはしばしば、微妙できめ細かなセマンティックな詳細とそれらの相互作用を見渡すことで、マルチモーダルデータの粗い処理をもたらす。
この欠点に対処するため,MMKGからの微細なモダリティ情報を処理し,融合し,拡張する新しいフレームワークであるMyGOを紹介した。
MyGOは、マルチモーダルな生データをきめ細かい離散トークンとしてトークン化し、クロスモーダルなエンティティエンコーダでエンティティ表現を学習する。
マルチモーダル表現をさらに強化するために、MyGOは、エンティティ表現の特異性を強調するために、きめ細かいコントラスト学習を取り入れている。
標準MMKGCベンチマーク実験により,提案手法は最新の20モデルを超え,優れた性能を実証した。
コードとデータはhttps://github.com/zjukg/MyGOで公開されている。
関連論文リスト
- Leveraging Entity Information for Cross-Modality Correlation Learning: The Entity-Guided Multimodal Summarization [49.08348604716746]
Multimodal Summarization with Multimodal Output (MSMO) は、テキストと関連する画像の両方を統合するマルチモーダル要約を作成することを目的としている。
本稿では,Entity-Guided Multimodal Summarization Model (EGMS)を提案する。
我々のモデルは,BART上に構築され,共有重み付きデュアルマルチモーダルエンコーダを用いて,テキスト画像とエンティティ画像情報を並列に処理する。
論文 参考訳(メタデータ) (2024-08-06T12:45:56Z) - IBMEA: Exploring Variational Information Bottleneck for Multi-modal Entity Alignment [17.570243718626994]
マルチモーダル・エンティティ・アライメント(MMEA)は、マルチモーダル・ナレッジ・グラフ(MMKG)間で等価なエンティティを識別することを目的としている。
確率分布としてモーダル固有の実体表現を生成するために,多モード変分エンコーダを考案する。
また、4つのモーダル固有情報ボトルネック正規化器を提案し、モーダル固有実体表現の精製における誤解を招く手がかりを限定する。
論文 参考訳(メタデータ) (2024-07-27T17:12:37Z) - Multiple Heads are Better than One: Mixture of Modality Knowledge Experts for Entity Representation Learning [51.80447197290866]
高品質なマルチモーダル実体表現を学習することは、マルチモーダル知識グラフ(MMKG)表現学習の重要な目標である。
既存の手法は、エレガントなエンティティワイドマルチモーダル融合戦略の構築に重点を置いている。
適応型マルチモーダルな実体表現を学習するために,Mixture of Modality Knowledge Expert (MoMoK) を用いた新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-27T06:36:17Z) - NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。
NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。
提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-03-28T03:04:00Z) - The Power of Noise: Toward a Unified Multi-modal Knowledge Graph Representation Framework [46.69058301083775]
マルチモーダルな知識グラフ(MMKG)表現学習フレームワークは,構造化された知識を大規模に多モーダルな言語モデル(LLM)に統合するために重要である。
モードレベルのノイズマスキングを備えたトランスフォーマーアーキテクチャを用いた新しいSNAG手法を提案する。
提案手法は,その堅牢性と汎用性を実証し,合計10データセットにわたるSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-03-11T15:48:43Z) - Unleashing the Power of Imbalanced Modality Information for Multi-modal
Knowledge Graph Completion [40.86196588992357]
マルチモーダル知識グラフ補完(MMKGC)は、マルチモーダル知識グラフの欠落三重項を予測することを目的としている。
適応型マルチモーダルフュージョン・モダリティ・アディショナル・トレーニング(AdaMF-MAT)を提案し,不均衡なモダリティ情報のパワーを解き放つ。
提案手法はMMKGCモデルとトレーニング戦略の共同設計であり,近年のMMKGC手法を上回りうる。
論文 参考訳(メタデータ) (2024-02-22T05:48:03Z) - Information Screening whilst Exploiting! Multimodal Relation Extraction
with Feature Denoising and Multimodal Topic Modeling [96.75821232222201]
既存のマルチモーダル関係抽出(MRE)研究は、内部情報過剰利用と外部情報過多という2つの共存課題に直面している。
内部情報スクリーニングと外部情報活用を同時に実現する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:57Z) - Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge
Graph Completion [112.27103169303184]
マルチモーダル知識グラフ(MKG)は、視覚テキストの事実知識を整理する。
MKGformerは、マルチモーダルリンク予測、マルチモーダルRE、マルチモーダルNERの4つのデータセット上でSOTA性能を得ることができる。
論文 参考訳(メタデータ) (2022-05-04T23:40:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。