論文の概要: When Graph meets Multimodal: Benchmarking and Meditating on Multimodal Attributed Graphs Learning
- arxiv url: http://arxiv.org/abs/2410.09132v2
- Date: Thu, 27 Feb 2025 14:51:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:55:12.251497
- Title: When Graph meets Multimodal: Benchmarking and Meditating on Multimodal Attributed Graphs Learning
- Title(参考訳): グラフがマルチモーダルに出会ったとき - マルチモーダル分散グラフ学習のベンチマークと扱い
- Authors: Hao Yan, Chaozhuo Li, Jun Yin, Zhigang Yu, Weihao Han, Mingzheng Li, Zhengxin Zeng, Hao Sun, Senzhang Wang,
- Abstract要約: マルチモーダル分散グラフ(MAG)は、ノードにアタッチされたマルチモーダル属性を通じて広範囲にわたる知識を含む、現実世界のアプリケーションにおいてユビキタスである。
ソーシャルネットワークやeコマースといった多様な研究分野を前進させる可能性にもかかわらず、MAG表現学習(MAGRL)はいまだに未調査である。
我々はまず,テキスト属性と視覚属性の両方を持つ様々な領域からのキュレートされたグラフを特徴付ける,包括的なMAGベンチマークデータセットであるMAGBを提案する。
- 参考スコア(独自算出の注目度): 28.555788831123447
- License:
- Abstract: Multimodal Attributed Graphs (MAGs) are ubiquitous in real-world applications, encompassing extensive knowledge through multimodal attributes attached to nodes (e.g., texts and images) and topological structure representing node interactions. Despite its potential to advance diverse research fields like social networks and e-commerce, MAG representation learning (MAGRL) remains underexplored due to the lack of standardized datasets and evaluation frameworks. In this paper, we first propose MAGB, a comprehensive MAG benchmark dataset, featuring curated graphs from various domains with both textual and visual attributes. Based on MAGB dataset, we further systematically evaluate two mainstream MAGRL paradigms: $\textit{GNN-as-Predictor}$, which integrates multimodal attributes via Graph Neural Networks (GNNs), and $\textit{VLM-as-Predictor}$, which harnesses Vision Language Models (VLMs) for zero-shot reasoning. Extensive experiments on MAGB reveal following critical insights: $\textit{(i)}$ Modality significances fluctuate drastically with specific domain characteristics. $\textit{(ii)}$ Multimodal embeddings can elevate the performance ceiling of GNNs. However, intrinsic biases among modalities may impede effective training, particularly in low-data scenarios. $\textit{(iii)}$ VLMs are highly effective at generating multimodal embeddings that alleviate the imbalance between textual and visual attributes. These discoveries, which illuminate the synergy between multimodal attributes and graph topologies, contribute to reliable benchmarks, paving the way for future MAG research. The MAGB dataset and evaluation pipeline are publicly available at https://github.com/sktsherlock/MAGB.
- Abstract(参考訳): マルチモーダル属性 (Multimodal Attributed Graphs, MAG) は、ノード(例えば、テキストや画像)にアタッチされたマルチモーダル属性や、ノード間の相互作用を表すトポロジ的構造を通じて、広範囲にわたる知識を含む、現実世界のアプリケーションにおいてユビキタスである。
ソーシャルネットワークやeコマースといった多様な研究分野を前進させる可能性にもかかわらず、MAG表現学習(MAGRL)は標準化されたデータセットや評価フレームワークが欠如しているため、まだ探索が進んでいない。
本稿ではまず,テキストと視覚の両方の属性を持つ様々な領域からのキュレートされたグラフを特徴付ける,包括的なMAGベンチマークデータセットであるMAGBを提案する。
MAGBデータセットに基づいて、グラフニューラルネットワーク(GNN)を介してマルチモーダル属性を統合する$\textit{GNN-as-Predictor}$と、ゼロショット推論のためにビジョン言語モデル(VLM)を利用する$\textit{VLM-as-Predictor}$という2つの主流MAGRLパラダイムを体系的に評価する。
MAGBの大規模な実験は、以下の重要な洞察を明らかにしている。
(i)$ Modality は特定の領域特性と劇的に変動する。
$\textit{
(ii)}$ Multimodal Embeddingsは、GNNのパフォーマンス上限を高めることができる。
しかし、モダリティの固有のバイアスは、特に低データシナリオにおいて、効果的なトレーニングを妨げる可能性がある。
$\textit{
(iii)$VLMはテキスト属性と視覚属性のアンバランスを緩和するマルチモーダル埋め込みを生成するのに非常に効果的である。
これらの発見は、マルチモーダル属性とグラフトポロジーの相乗効果を照らし出し、信頼性の高いベンチマークに寄与し、将来のMAG研究への道を開く。
MAGBデータセットと評価パイプラインはhttps://github.com/sktsherlock/MAGB.comで公開されている。
関連論文リスト
- UniGraph2: Learning a Unified Embedding Space to Bind Multimodal Graphs [34.48393396390799]
マルチモーダルグラフ上での汎用的な表現学習を可能にする新しいクロスドメイングラフ基盤モデルを提案する。
UniGraph2は、グラフニューラルネットワーク(GNN)と共にモダリティ固有のエンコーダを使用して、統一された低次元埋め込み空間を学習する。
我々は,UniGraph2が表現学習,伝達学習,マルチモーダル生成タスクなどのタスクにおいて,最先端モデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2025-02-02T14:04:53Z) - Mamba-Based Graph Convolutional Networks: Tackling Over-smoothing with Selective State Space [33.677431350509224]
本稿では,Mambaパラダイムからインスピレーションを得た新しいグラフ畳み込みアーキテクチャであるMbaGCNを紹介する。
MbaGCNは、Message Aggregation Layer、Selective State Space Transition Layer、Node State Prediction Layerという3つの重要なコンポーネントで構成されるGNNの新しいバックボーンを提供する。
論文 参考訳(メタデータ) (2025-01-26T09:09:44Z) - Multimodal Graph Benchmark [36.75510196380185]
マルチモーダルグラフベンチマーク(Multimodal Graph Benchmark、MM-GRAPH)は、テキスト情報と視覚情報の両方を組み込んだ総合的なマルチモーダルグラフベンチマークである。
MM-GRAPHは5つのグラフ学習データセットから構成されており、異なる学習タスクに適している。
MM-GRAPHは、マルチモーダルグラフ学習の研究を促進し、より高度で堅牢なグラフ学習アルゴリズムの開発を促進することを目的としている。
論文 参考訳(メタデータ) (2024-06-24T05:14:09Z) - Tokenization, Fusion, and Augmentation: Towards Fine-grained Multi-modal Entity Representation [51.80447197290866]
マルチモーダル知識グラフ補完(MMKGC)は、与えられた知識グラフから観測されていない知識を発見することを目的としている。
既存のMMKGCメソッドは通常、事前訓練されたモデルでマルチモーダルな特徴を抽出する。
エンティティの微細なマルチモーダル表現をトークン化し、融合し、拡張する新しいフレームワークであるMyGOを紹介します。
論文 参考訳(メタデータ) (2024-04-15T05:40:41Z) - NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。
NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。
提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-03-28T03:04:00Z) - Noise-powered Multi-modal Knowledge Graph Representation Framework [52.95468915728721]
マルチモーダル・プレトレーニングの台頭は、統合されたマルチモーダル知識グラフ表現学習フレームワークの必要性を強調している。
モードレベルのノイズマスキングを備えたトランスフォーマーアーキテクチャを用いた新しいSNAG手法を提案する。
提案手法は10個のデータセットにまたがってSOTA性能を実現し,その汎用性を実証する。
論文 参考訳(メタデータ) (2024-03-11T15:48:43Z) - Learning on Multimodal Graphs: A Survey [6.362513821299131]
マルチモーダルデータは医療、ソーシャルメディア、交通など様々な領域に及んでいる。
マルチモーダルグラフ学習(MGL)は、人工知能(AI)アプリケーションの成功に不可欠である。
論文 参考訳(メタデータ) (2024-02-07T23:50:00Z) - Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph
Propagation [68.13453771001522]
画像の領域と対応するセマンティック埋め込みとをマッチングする多モード集中型ZSLフレームワークを提案する。
我々は、大規模な実世界のデータに基づいて、広範囲な実験を行い、そのモデルを評価する。
論文 参考訳(メタデータ) (2023-06-14T13:07:48Z) - Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge
Graph Completion [112.27103169303184]
マルチモーダル知識グラフ(MKG)は、視覚テキストの事実知識を整理する。
MKGformerは、マルチモーダルリンク予測、マルチモーダルRE、マルチモーダルNERの4つのデータセット上でSOTA性能を得ることができる。
論文 参考訳(メタデータ) (2022-05-04T23:40:04Z) - More Diverse Means Better: Multimodal Deep Learning Meets Remote Sensing
Imagery Classification [43.35966675372692]
ディープネットワークをトレーニングし、ネットワークアーキテクチャを構築する方法を示します。
特に、深層ネットワークをトレーニングし、ネットワークアーキテクチャを構築する方法と同様に、異なる融合戦略を示す。
我々のフレームワークは画素単位の分類タスクに限らず、畳み込みニューラルネットワーク(CNN)を用いた空間情報モデリングにも適用できる。
論文 参考訳(メタデータ) (2020-08-12T17:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。