論文の概要: UniGraph2: Learning a Unified Embedding Space to Bind Multimodal Graphs
- arxiv url: http://arxiv.org/abs/2502.00806v1
- Date: Sun, 02 Feb 2025 14:04:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:58:08.785973
- Title: UniGraph2: Learning a Unified Embedding Space to Bind Multimodal Graphs
- Title(参考訳): UniGraph2: バイナリマルチモーダルグラフに統一的な埋め込み空間を学習する
- Authors: Yufei He, Yuan Sui, Xiaoxin He, Yue Liu, Yifei Sun, Bryan Hooi,
- Abstract要約: マルチモーダルグラフ上での汎用的な表現学習を可能にする新しいクロスドメイングラフ基盤モデルを提案する。
UniGraph2は、グラフニューラルネットワーク(GNN)と共にモダリティ固有のエンコーダを使用して、統一された低次元埋め込み空間を学習する。
我々は,UniGraph2が表現学習,伝達学習,マルチモーダル生成タスクなどのタスクにおいて,最先端モデルよりも大幅に優れていることを示す。
- 参考スコア(独自算出の注目度): 34.48393396390799
- License:
- Abstract: Existing foundation models, such as CLIP, aim to learn a unified embedding space for multimodal data, enabling a wide range of downstream web-based applications like search, recommendation, and content classification. However, these models often overlook the inherent graph structures in multimodal datasets, where entities and their relationships are crucial. Multimodal graphs (MMGs) represent such graphs where each node is associated with features from different modalities, while the edges capture the relationships between these entities. On the other hand, existing graph foundation models primarily focus on text-attributed graphs (TAGs) and are not designed to handle the complexities of MMGs. To address these limitations, we propose UniGraph2, a novel cross-domain graph foundation model that enables general representation learning on MMGs, providing a unified embedding space. UniGraph2 employs modality-specific encoders alongside a graph neural network (GNN) to learn a unified low-dimensional embedding space that captures both the multimodal information and the underlying graph structure. We propose a new cross-domain multi-graph pre-training algorithm at scale to ensure effective transfer learning across diverse graph domains and modalities. Additionally, we adopt a Mixture of Experts (MoE) component to align features from different domains and modalities, ensuring coherent and robust embeddings that unify the information across modalities. Extensive experiments on a variety of multimodal graph tasks demonstrate that UniGraph2 significantly outperforms state-of-the-art models in tasks such as representation learning, transfer learning, and multimodal generative tasks, offering a scalable and flexible solution for learning on MMGs.
- Abstract(参考訳): CLIPのような既存の基盤モデルは、マルチモーダルデータのための統一的な埋め込み空間を学習することを目的としており、検索、レコメンデーション、コンテンツ分類といった幅広いダウンストリームWebベースのアプリケーションを可能にしている。
しかし、これらのモデルはしばしば、エンティティとそれらの関係が不可欠であるマルチモーダルデータセットの固有のグラフ構造を見落としている。
マルチモーダルグラフ(MMG)は、各ノードが異なるモダリティの特徴に関連付けられているようなグラフを表し、エッジはこれらのエンティティ間の関係をキャプチャする。
一方、既存のグラフ基盤モデルは、主にテキスト分散グラフ(TAG)に焦点を当てており、MMGの複雑さを扱うように設計されていない。
これらの制約に対処するために,MMG上で汎用的な表現学習を可能にする新しいクロスドメイングラフ基盤モデルUniGraph2を提案する。
UniGraph2は、グラフニューラルネットワーク(GNN)と共にモダリティ固有のエンコーダを使用して、マルチモーダル情報と基礎となるグラフ構造の両方をキャプチャする統一された低次元埋め込み空間を学習する。
多様なグラフ領域とモダリティ間の効果的な伝達学習を実現するため,クロスドメイン・マルチグラフ事前学習アルゴリズムを大規模に提案する。
さらに、私たちはMixture of Experts (MoE) コンポーネントを採用して、異なるドメインやモダリティの機能を整列させ、モダリティをまたいだ情報を統一するコヒーレントで堅牢な埋め込みを確保します。
様々なマルチモーダルグラフタスクに関する広範囲な実験により、UniGraph2は表現学習、伝達学習、マルチモーダル生成タスクといったタスクにおいて最先端のモデルを大幅に上回り、MDGで学習するためのスケーラブルで柔軟なソリューションを提供することを示した。
関連論文リスト
- Dual-level Mixup for Graph Few-shot Learning with Fewer Tasks [23.07584018576066]
We propose a SiMple yet effectIve approach for graph few-shot Learning with fEwer task, named SMILE。
メタ学習において利用可能なノードとタスクを同時に強化するために、マルチレベルのミックスアップ戦略を導入し、タスク内とタスク間ミックスアップの両方を包含する。
経験的に言えば、SMILEは、ドメイン内設定とクロスドメイン設定で評価されたすべてのデータセットに対して、他の競合モデルよりも大きなマージンで、一貫して優れています。
論文 参考訳(メタデータ) (2025-02-19T23:59:05Z) - Multi-view Fuzzy Graph Attention Networks for Enhanced Graph Learning [0.0]
Fuzzy Graph Attention Network (FGAT)は、堅牢なグラフベースの学習を必要とするタスクにおいて、将来性を示している。
本稿では,MFGAT(Multi-view Fuzzy Graph Attention Network)を提案する。
論文 参考訳(メタデータ) (2024-12-23T04:39:08Z) - One Model for One Graph: A New Perspective for Pretraining with Cross-domain Graphs [61.9759512646523]
複雑なネットワークパターンをキャプチャする強力なツールとして、グラフニューラルネットワーク(GNN)が登場した。
既存のGNNには、慎重にドメイン固有のアーキテクチャ設計と、データセットのスクラッチからのトレーニングが必要です。
我々は、新しいクロスドメイン事前学習フレームワーク「1つのグラフのための1つのモデル」を提案する。
論文 参考訳(メタデータ) (2024-11-30T01:49:45Z) - GraphFM: A Scalable Framework for Multi-Graph Pretraining [2.882104808886318]
本稿では,さまざまな領域のグラフデータセットにまたがるノード分類タスクに適した,スケーラブルなマルチグラフ・マルチタスク事前学習手法を提案する。
我々は,740万以上のノードと1億1900万のエッジからなる152のグラフデータセットのモデルをトレーニングすることで,このアプローチの有効性を実証する。
以上の結果から,多種多様な実・合成グラフの事前学習により適応性と安定性が向上し,最先端のスペシャリストモデルと競合する結果が得られた。
論文 参考訳(メタデータ) (2024-07-16T16:51:43Z) - Multimodal Graph Benchmark [36.75510196380185]
マルチモーダルグラフベンチマーク(Multimodal Graph Benchmark、MM-GRAPH)は、テキスト情報と視覚情報の両方を組み込んだ総合的なマルチモーダルグラフベンチマークである。
MM-GRAPHは5つのグラフ学習データセットから構成されており、異なる学習タスクに適している。
MM-GRAPHは、マルチモーダルグラフ学習の研究を促進し、より高度で堅牢なグラフ学習アルゴリズムの開発を促進することを目的としている。
論文 参考訳(メタデータ) (2024-06-24T05:14:09Z) - UniGraph: Learning a Unified Cross-Domain Foundation Model for Text-Attributed Graphs [30.635472655668078]
Text-Attributed Graphs (TAG) は、さまざまなドメインにまたがる見えないグラフやタスクに一般化することができる。
本稿では,言語モデル (LM) とグラフニューラルネットワーク (GNN) をバックボーンネットワークとして,新しいケースドアーキテクチャを提案する。
本モデルの有効性を,未確認グラフの自己教師型表現学習,少数ショットインコンテキスト転送,ゼロショット転送で実証する。
論文 参考訳(メタデータ) (2024-02-21T09:06:31Z) - Model-Agnostic Graph Regularization for Few-Shot Learning [60.64531995451357]
グラフ組み込み数ショット学習に関する包括的な研究を紹介します。
本稿では,ラベル間のグラフ情報の組み込みによる影響をより深く理解できるグラフ正規化手法を提案する。
提案手法は,Mini-ImageNetで最大2%,ImageNet-FSで6.7%の性能向上を実現する。
論文 参考訳(メタデータ) (2021-02-14T05:28:13Z) - Graphonomy: Universal Image Parsing via Graph Reasoning and Transfer [140.72439827136085]
グラフィノノミー(Graphonomy)というグラフ推論・伝達学習フレームワークを提案する。
人間の知識とラベル分類を、局所畳み込みを超えた中間グラフ表現学習に組み込んでいる。
意味認識グラフの推論と転送を通じて、複数のドメインにおけるグローバルおよび構造化されたセマンティックコヒーレンシーを学習する。
論文 参考訳(メタデータ) (2021-01-26T08:19:03Z) - Multi-Level Graph Convolutional Network with Automatic Graph Learning
for Hyperspectral Image Classification [63.56018768401328]
HSI分類のための自動グラフ学習法(MGCN-AGL)を用いたマルチレベルグラフ畳み込みネットワーク(GCN)を提案する。
空間的に隣接する領域における重要度を特徴付けるために注意機構を利用することで、最も関連性の高い情報を適応的に組み込んで意思決定を行うことができる。
MGCN-AGLは局所的に生成した表現表現に基づいて画像領域間の長距離依存性を符号化する。
論文 参考訳(メタデータ) (2020-09-19T09:26:20Z) - Tensor Graph Convolutional Networks for Multi-relational and Robust
Learning [74.05478502080658]
本稿では,テンソルで表されるグラフの集合に関連するデータから,スケーラブルな半教師付き学習(SSL)を実現するためのテンソルグラフ畳み込みネットワーク(TGCN)を提案する。
提案アーキテクチャは、標準的なGCNと比較して大幅に性能が向上し、最先端の敵攻撃に対処し、タンパク質間相互作用ネットワーク上でのSSL性能が著しく向上する。
論文 参考訳(メタデータ) (2020-03-15T02:33:21Z) - Graph Representation Learning via Graphical Mutual Information
Maximization [86.32278001019854]
本稿では,入力グラフとハイレベルな隠蔽表現との相関を測る新しい概念であるGMIを提案する。
我々は,グラフニューラルエンコーダの入力と出力の間でGMIを最大化することで訓練された教師なし学習モデルを開発する。
論文 参考訳(メタデータ) (2020-02-04T08:33:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。