論文の概要: DiffusionCom: Structure-Aware Multimodal Diffusion Model for Multimodal Knowledge Graph Completion
- arxiv url: http://arxiv.org/abs/2504.06543v1
- Date: Wed, 09 Apr 2025 02:50:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:05:17.182841
- Title: DiffusionCom: Structure-Aware Multimodal Diffusion Model for Multimodal Knowledge Graph Completion
- Title(参考訳): DiffusionCom:マルチモーダル知識グラフ補完のための構造を考慮したマルチモーダル拡散モデル
- Authors: Wei Huang, Meiyu Liang, Peining Li, Xu Hou, Yawen Li, Junping Du, Zhe Xue, Zeli Guan,
- Abstract要約: マルチモーダル知識グラフ補完(DiffusionCom)のための構造認識型マルチモーダル拡散モデルを提案する。
DiffusionComはジェネレータの生成的損失と識別的損失の両方を用いて訓練され、特徴抽出器は識別的損失にのみ最適化される。
FB15k-237-IMGデータセットとWN18-IMGデータセットの実験は、DiffusionComが最先端モデルより優れていることを示した。
- 参考スコア(独自算出の注目度): 15.898786167134997
- License:
- Abstract: Most current MKGC approaches are predominantly based on discriminative models that maximize conditional likelihood. These approaches struggle to efficiently capture the complex connections in real-world knowledge graphs, thereby limiting their overall performance. To address this issue, we propose a structure-aware multimodal Diffusion model for multimodal knowledge graph Completion (DiffusionCom). DiffusionCom innovatively approaches the problem from the perspective of generative models, modeling the association between the $(head, relation)$ pair and candidate tail entities as their joint probability distribution $p((head, relation), (tail))$, and framing the MKGC task as a process of gradually generating the joint probability distribution from noise. Furthermore, to fully leverage the structural information in MKGs, we propose Structure-MKGformer, an adaptive and structure-aware multimodal knowledge representation learning method, as the encoder for DiffusionCom. Structure-MKGformer captures rich structural information through a multimodal graph attention network (MGAT) and adaptively fuses it with entity representations, thereby enhancing the structural awareness of these representations. This design effectively addresses the limitations of existing MKGC methods, particularly those based on multimodal pre-trained models, in utilizing structural information. DiffusionCom is trained using both generative and discriminative losses for the generator, while the feature extractor is optimized exclusively with discriminative loss. This dual approach allows DiffusionCom to harness the strengths of both generative and discriminative models. Extensive experiments on the FB15k-237-IMG and WN18-IMG datasets demonstrate that DiffusionCom outperforms state-of-the-art models.
- Abstract(参考訳): 現在のMKGCのアプローチのほとんどは、条件付き確率を最大化する判別モデルに基づいている。
これらのアプローチは、現実世界の知識グラフにおける複雑な接続を効果的に捉え、それによって全体的なパフォーマンスを制限するのに苦労する。
この問題に対処するため,マルチモーダル知識グラフ補完(DiffusionCom)のための構造対応多モード拡散モデルを提案する。
DiffusionCom は、生成モデルの観点からこの問題に革新的にアプローチし、$(head, relation)$ペアと候補テールエンティティの結合確率分布 $p((head, relation, (tail))$ をモデル化し、MKGC タスクをノイズから徐々に結合確率分布を生成するプロセスとしてフレーミングする。
さらに,MKGにおける構造情報を完全に活用するために,DiffusionComのエンコーダとして,適応型かつ構造対応のマルチモーダル知識表現学習法であるStructure-MKGformerを提案する。
Structure-MKGformerはマルチモーダルグラフアテンションネットワーク(MGAT)を介してリッチな構造情報をキャプチャし、エンティティ表現と適応的に融合することで、これらの表現の構造的認識を高める。
この設計は、構造情報の活用において、既存のMKGC手法、特にマルチモーダル事前訓練モデルに基づく手法の限界に効果的に対処する。
DiffusionComはジェネレータの生成的損失と識別的損失の両方を用いて訓練され、特徴抽出器は識別的損失にのみ最適化される。
この二重アプローチにより、DiffusionComは生成モデルと識別モデルの両方の長所を利用することができる。
FB15k-237-IMGとWN18-IMGデータセットの大規模な実験は、DiffusionComが最先端のモデルより優れていることを示した。
関連論文リスト
- MIND: Modality-Informed Knowledge Distillation Framework for Multimodal Clinical Prediction Tasks [50.98856172702256]
マルチモーダルモデル圧縮手法である MIND (Modality-Informed Knowledge Distillation) フレームワークを提案する。
MINDは、様々なサイズの事前訓練されたディープニューラルネットワークのアンサンブルから、より小さなマルチモーダルの学生に知識を伝達する。
時系列データと胸部X線画像を用いた2値および複数ラベルの臨床予測タスクにおけるMINDの評価を行った。
論文 参考訳(メタデータ) (2025-02-03T08:50:00Z) - Transformer-Based Multimodal Knowledge Graph Completion with Link-Aware Contexts [3.531533402602335]
マルチモーダル知識グラフ補完(MMKGC)は、マルチモーダル知識グラフ(MMKG)における欠落リンクの予測を目的とする。
既存のMMKGCアプローチは主に知識グラフ埋め込み(KGE)モデルを拡張している。
本稿では,トランスフォーマーをベースとしたKGEモデルと,事前学習したVLMが生成するクロスモーダルコンテキストを統合した新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-26T22:23:14Z) - Tokenization, Fusion, and Augmentation: Towards Fine-grained Multi-modal Entity Representation [51.80447197290866]
マルチモーダル知識グラフ補完(MMKGC)は、与えられた知識グラフから観測されていない知識を発見することを目的としている。
既存のMMKGCメソッドは通常、事前訓練されたモデルでマルチモーダルな特徴を抽出する。
エンティティの微細なマルチモーダル表現をトークン化し、融合し、拡張する新しいフレームワークであるMyGOを紹介します。
論文 参考訳(メタデータ) (2024-04-15T05:40:41Z) - Noise-powered Multi-modal Knowledge Graph Representation Framework [52.95468915728721]
マルチモーダル・プレトレーニングの台頭は、統合されたマルチモーダル知識グラフ表現学習フレームワークの必要性を強調している。
モードレベルのノイズマスキングを備えたトランスフォーマーアーキテクチャを用いた新しいSNAG手法を提案する。
提案手法は10個のデータセットにまたがってSOTA性能を実現し,その汎用性を実証する。
論文 参考訳(メタデータ) (2024-03-11T15:48:43Z) - Structure-Guided Adversarial Training of Diffusion Models [27.723913809313125]
拡散モデル(SADM)の構造誘導型逆トレーニングについて紹介する。
トレーニングバッチ毎にサンプル間の多様体構造を学習するようにモデルを強制する。
SADMは既存の拡散変換器を大幅に改善し、画像生成や微調整タスクにおいて既存の手法より優れている。
論文 参考訳(メタデータ) (2024-02-27T15:05:13Z) - FedDiff: Diffusion Model Driven Federated Learning for Multi-Modal and
Multi-Clients [32.59184269562571]
我々はFedDiffと呼ばれる多モード協調拡散学習フレームワークを提案する。
本フレームワークは,2つのモーダルデータをエンコーダの別々の分岐に入力するデュアルブランチ拡散モデル特徴抽出設定を確立する。
複数のクライアント間のプライベートかつ効率的なコミュニケーションの課題を考慮し、拡散モデルを連合学習コミュニケーション構造に組み込む。
論文 参考訳(メタデータ) (2023-11-16T02:29:37Z) - MACO: A Modality Adversarial and Contrastive Framework for
Modality-missing Multi-modal Knowledge Graph Completion [18.188971531961663]
本稿では,MMKGCにおけるモダリティ欠落問題を解決するために,モダリティ対向・コントラッシブ・フレームワーク(MACO)を提案する。
MACOは、MMKGCモデルに組み込むことができる欠落したモダリティ特徴を生成するために、ジェネレータと識別器を逆さまに訓練する。
論文 参考訳(メタデータ) (2023-08-13T06:29:38Z) - Diff-Instruct: A Universal Approach for Transferring Knowledge From
Pre-trained Diffusion Models [77.83923746319498]
本稿では,任意の生成モデルの学習を指導するDiff-Instructというフレームワークを提案する。
Diff-Instructは、最先端の単一ステップ拡散モデルであることを示す。
GANモデルの精製実験により、Diff-InstructはGANモデルの事前訓練されたジェネレータを一貫して改善できることが示されている。
論文 参考訳(メタデータ) (2023-05-29T04:22:57Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Unsupervised multi-modal Styled Content Generation [61.040392094140245]
UMMGANは、教師なし方式でマルチモーダル分布をモデル化するために設計された新しいアーキテクチャである。
UMMGANはモードとスタイルを効果的に切り離し、生成したコンテンツに対して独立した制御を行うことができることを示す。
論文 参考訳(メタデータ) (2020-01-10T19:36:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。