論文の概要: MyGram: Modality-aware Graph Transformer with Global Distribution for Multi-modal Entity Alignment
- arxiv url: http://arxiv.org/abs/2601.11885v1
- Date: Sat, 17 Jan 2026 02:51:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.357956
- Title: MyGram: Modality-aware Graph Transformer with Global Distribution for Multi-modal Entity Alignment
- Title(参考訳): MyGram: マルチモーダルエンティティアライメントのためのグローバル分散を備えたModality-Aware Graph Transformer
- Authors: Zhifei Li, Ziyue Qin, Xiangyu Luo, Xiaoju Hou, Yue Zhao, Miao Zhang, Zhifang Huang, Kui Xiao, Bing Yang,
- Abstract要約: MyGramはマルチモーダルなエンティティアライメントのための大域分布を持つモダリティ対応グラフトランスである。
モーダリティ内での深い構造的文脈情報を取得するためのモーダリティ拡散学習モジュールを開発した。
さらに,マルチモーダル特徴によって形成される4次元並列トミープの体積を最小化することにより,正規化制約として機能するグラムロスを導入する。
- 参考スコア(独自算出の注目度): 14.977576748140853
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-modal entity alignment aims to identify equivalent entities between two multi-modal Knowledge graphs by integrating multi-modal data, such as images and text, to enrich the semantic representations of entities. However, existing methods may overlook the structural contextual information within each modality, making them vulnerable to interference from shallow features. To address these challenges, we propose MyGram, a modality-aware graph transformer with global distribution for multi-modal entity alignment. Specifically, we develop a modality diffusion learning module to capture deep structural contextual information within modalities and enable fine-grained multi-modal fusion. In addition, we introduce a Gram Loss that acts as a regularization constraint by minimizing the volume of a 4-dimensional parallelotope formed by multi-modal features, thereby achieving global distribution consistency across modalities. We conduct experiments on five public datasets. Results show that MyGram outperforms baseline models, achieving a maximum improvement of 4.8% in Hits@1 on FBDB15K, 9.9% on FBYG15K, and 4.3% on DBP15K.
- Abstract(参考訳): マルチモーダルエンティティアライメントは、画像やテキストなどのマルチモーダルデータを統合することで、2つのマルチモーダル知識グラフ間の等価エンティティを識別し、エンティティの意味表現を強化することを目的としている。
しかし、既存の手法は各モードにおける構造的文脈情報を見落とし、浅い特徴からの干渉に弱い。
これらの課題に対処するために,マルチモーダルなエンティティアライメントのためのグローバル分布を持つモダリティ対応グラフトランスフォーマであるMyGramを提案する。
具体的には、モーダリティ内の深い構造的文脈情報を捕捉し、微細なマルチモーダル融合を可能にするモーダリティ拡散学習モジュールを開発する。
さらに,マルチモーダル特徴によって形成される4次元並列トミープの体積を最小化し,モジュール間のグローバル分布の整合性を実現することで,正規化制約として機能するグラムロスを導入する。
5つの公開データセットで実験を行います。
その結果、MyGramはベースラインモデルより優れており、FBDB15KでHits@1が4.8%、FBYG15Kで9.9%、DBP15Kで4.3%向上した。
関連論文リスト
- Graph4MM: Weaving Multimodal Learning with Structural Information [52.16646463590474]
グラフは、モーダル内およびモーダル間関係をモデル化するための強力な構造情報を提供する。
それまでの作業では、マルチホップの隣人を区別できず、グラフをスタンドアローンのモダリティとして扱う。
グラフベースのマルチモーダル学習フレームワークであるGraph4MMを提案する。
論文 参考訳(メタデータ) (2025-10-19T20:13:03Z) - Modality Alignment with Multi-scale Bilateral Attention for Multimodal Recommendation [9.91438130100011]
MambaRecは、ローカルな特徴アライメントとグローバルな分散正規化を統合する新しいフレームワークである。
DREAMモジュールは階層的関係とコンテキスト認識関連をキャプチャし、モーダル間セマンティックモデリングを改善する。
実世界のeコマースデータセットの実験によると、MambaRecは融合品質、一般化、効率で既存の手法より優れている。
論文 参考訳(メタデータ) (2025-09-11T02:52:26Z) - M$^3$amba: CLIP-driven Mamba Model for Multi-modal Remote Sensing Classification [23.322598623627222]
M$3$ambaは、マルチモーダル融合のための新しいエンドツーエンドのCLIP駆動のMambaモデルである。
異なるモダリティの包括的セマンティック理解を実現するために,CLIP駆動型モダリティ固有アダプタを提案する。
実験の結果、M$3$ambaは最先端の手法と比較して平均5.98%の性能向上が見られた。
論文 参考訳(メタデータ) (2025-03-09T05:06:47Z) - mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data [71.352883755806]
マルチモーダル埋め込みモデルは、テキストや画像などの様々なモダリティからデータを統一表現空間にマッピングする能力において、大きな注目を集めている。
しかし、ラベル付きマルチモーダルデータは、しばしば埋め込み性能を妨げる。
近年のアプローチでは、この問題に対処するためにデータ合成を活用しているが、合成データの質は依然として重大なボトルネックとなっている。
論文 参考訳(メタデータ) (2025-02-12T15:03:33Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。
NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。
提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-03-28T03:04:00Z) - Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge
Graph Completion [112.27103169303184]
マルチモーダル知識グラフ(MKG)は、視覚テキストの事実知識を整理する。
MKGformerは、マルチモーダルリンク予測、マルチモーダルRE、マルチモーダルNERの4つのデータセット上でSOTA性能を得ることができる。
論文 参考訳(メタデータ) (2022-05-04T23:40:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。