論文の概要: Multiple Heads are Better than One: Mixture of Modality Knowledge Experts for Entity Representation Learning
- arxiv url: http://arxiv.org/abs/2405.16869v2
- Date: Wed, 02 Oct 2024 14:42:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-03 15:18:26.730050
- Title: Multiple Heads are Better than One: Mixture of Modality Knowledge Experts for Entity Representation Learning
- Title(参考訳): 複数の頭は1より優れている: エンティティ表現学習のためのモダリティ知識エキスパートの混在
- Authors: Yichi Zhang, Zhuo Chen, Lingbing Guo, Yajing Xu, Binbin Hu, Ziqi Liu, Wen Zhang, Huajun Chen,
- Abstract要約: 高品質なマルチモーダル実体表現を学習することは、マルチモーダル知識グラフ(MMKG)表現学習の重要な目標である。
既存の手法は、エレガントなエンティティワイドマルチモーダル融合戦略の構築に重点を置いている。
適応型マルチモーダルな実体表現を学習するために,Mixture of Modality Knowledge Expert (MoMoK) を用いた新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 51.80447197290866
- License:
- Abstract: Learning high-quality multi-modal entity representations is an important goal of multi-modal knowledge graph (MMKG) representation learning, which can enhance reasoning tasks within the MMKGs, such as MMKG completion (MMKGC). The main challenge is to collaboratively model the structural information concealed in massive triples and the multi-modal features of the entities. Existing methods focus on crafting elegant entity-wise multi-modal fusion strategies, yet they overlook the utilization of multi-perspective features concealed within the modalities under diverse relational contexts. To address this issue, we introduce a novel framework with Mixture of Modality Knowledge experts (MoMoK for short) to learn adaptive multi-modal entity representations for better MMKGC. We design relation-guided modality knowledge experts to acquire relation-aware modality embeddings and integrate the predictions from multi-modalities to achieve joint decisions. Additionally, we disentangle the experts by minimizing their mutual information. Experiments on four public MMKG benchmarks demonstrate the outstanding performance of MoMoK under complex scenarios.
- Abstract(参考訳): 高品質なマルチモーダル実体表現の学習は、MMKGC補完(MMKGC)のようなMMKG内の推論タスクを強化するマルチモーダル知識グラフ(MMKG)表現学習の重要な目標である。
主な課題は、巨大なトリプルに隠された構造情報と、エンティティのマルチモーダルな特徴を協調的にモデル化することである。
既存の手法は、エレガントなエンティティ・ワイド・マルチモーダル・フュージョン戦略の構築に重点を置いているが、様々なリレーショナル・コンテキストの下でモダリティ内に隠されたマルチパースペクティブ・フィーチャの利用を見落としている。
そこで本研究では,Mixture of Modality Knowledge Expert (MoMoK,略してMoMoK) を用いて,適応型マルチモーダル実体表現を学習し,MMKGCを改善する新しいフレームワークを提案する。
我々は,関係誘導型モダリティ知識エキスパートを設計し,関係認識型モダリティ埋め込みを取得し,複数モダリティからの予測を統合して共同決定を行う。
さらに、専門家同士の情報を最小化することで、専門家を混乱させます。
4つの公開MMKGベンチマークの実験は、複雑なシナリオ下でのMoMoKの優れた性能を示す。
関連論文リスト
- PIN: A Knowledge-Intensive Dataset for Paired and Interleaved Multimodal Documents [58.35492519636351]
PINフォーマットは、知識の強度、スケーラビリティ、多様なトレーニングモダリティのサポートの3つの基本原則に基づいて構築されている。
PIN-14Mは中国語と英語の多種多様な情報源から得られた1400万のサンプルからなるオープンソースデータセットである。
論文 参考訳(メタデータ) (2024-06-20T01:43:08Z) - Multimodal Reasoning with Multimodal Knowledge Graph [19.899398342533722]
大規模言語モデル(LLM)を用いたマルチモーダル推論は、幻覚や、不十分な知識や時代遅れな知識の存在に悩まされることが多い。
マルチモーダル知識グラフを用いたマルチモーダル推論(MR-MKG)手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T07:13:23Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - MyGO: Discrete Modality Information as Fine-Grained Tokens for Multi-modal Knowledge Graph Completion [51.80447197290866]
MMKGの微細なモダリティ情報を処理・融合・拡張するためにMyGOを導入する。
MyGOは、マルチモーダルな生データをきめ細かい離散トークンとしてトークン化し、クロスモーダルなエンティティエンコーダでエンティティ表現を学習する。
標準MMKGCベンチマーク実験により,本手法が最新の20モデルを上回ることがわかった。
論文 参考訳(メタデータ) (2024-04-15T05:40:41Z) - Zero-Shot Relational Learning for Multimodal Knowledge Graphs [31.215889061734295]
主な課題の1つは、関連するトレーニングデータなしで新たに発見された関係を推測することである。
既存の作業はマルチモーダル情報の活用をサポートしておらず、未調査のままである。
多様なマルチモーダル情報と知識グラフ構造を統合するために, マルチモーダル学習者, 構造コンソリエータ埋め込みジェネレータという3つのコンポーネントからなる新しいエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-09T11:14:45Z) - NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。
NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。
提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-03-28T03:04:00Z) - Multi-modal Contrastive Representation Learning for Entity Alignment [57.92705405276161]
マルチモーダルなエンティティアライメントは、2つの異なるマルチモーダルな知識グラフ間で等価なエンティティを識別することを目的としている。
マルチモーダルコントラスト学習に基づくエンティティアライメントモデルであるMCLEAを提案する。
特に、MCLEAはまず複数のモダリティから複数の個別表現を学習し、その後、モダリティ内およびモダリティ間相互作用を共同でモデル化するコントラスト学習を行う。
論文 参考訳(メタデータ) (2022-09-02T08:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。