論文の概要: Towards Multi-modal Graph Large Language Model
- arxiv url: http://arxiv.org/abs/2506.09738v1
- Date: Wed, 11 Jun 2025 13:41:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:03.017114
- Title: Towards Multi-modal Graph Large Language Model
- Title(参考訳): マルチモーダルグラフ大言語モデルに向けて
- Authors: Xin Wang, Zeyang Zhang, Linxin Xiao, Haibo Chen, Chendi Ge, Wenwu Zhu,
- Abstract要約: マルチモーダルグラフ大言語モデル(MG-LLM)の可能性を探り,多様なマルチモーダルグラフデータやタスクを統一・一般化する。
1)マルチモーダルな構造と属性の統一空間,2)多様なマルチモーダルなグラフタスクを扱う能力,3)マルチモーダルなインコンテキスト学習,4)自然言語とのマルチモーダルなグラフインタラクション,5)マルチモーダルなグラフ推論。
- 参考スコア(独自算出の注目度): 34.70458746950645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal graphs, which integrate diverse multi-modal features and relations, are ubiquitous in real-world applications. However, existing multi-modal graph learning methods are typically trained from scratch for specific graph data and tasks, failing to generalize across various multi-modal graph data and tasks. To bridge this gap, we explore the potential of Multi-modal Graph Large Language Models (MG-LLM) to unify and generalize across diverse multi-modal graph data and tasks. We propose a unified framework of multi-modal graph data, task, and model, discovering the inherent multi-granularity and multi-scale characteristics in multi-modal graphs. Specifically, we present five key desired characteristics for MG-LLM: 1) unified space for multi-modal structures and attributes, 2) capability of handling diverse multi-modal graph tasks, 3) multi-modal graph in-context learning, 4) multi-modal graph interaction with natural language, and 5) multi-modal graph reasoning. We then elaborate on the key challenges, review related works, and highlight promising future research directions towards realizing these ambitious characteristics. Finally, we summarize existing multi-modal graph datasets pertinent for model training. We believe this paper can contribute to the ongoing advancement of the research towards MG-LLM for generalization across multi-modal graph data and tasks.
- Abstract(参考訳): 多様なマルチモーダル特徴と関係を統合したマルチモーダルグラフは、現実世界のアプリケーションではユビキタスである。
しかし、既存のマルチモーダルグラフ学習法は、通常、特定のグラフデータやタスクのスクラッチから訓練され、様々なマルチモーダルグラフデータやタスクを一般化することができない。
このギャップを埋めるために、多モーダルグラフ大言語モデル(MG-LLM)の可能性を探り、多モーダルグラフデータとタスクを統一し、一般化する。
本稿では,マルチモーダルグラフデータ,タスク,モデルの統合フレームワークを提案する。
具体的には,MG-LLMの5つの重要な特徴について述べる。
1) マルチモーダル構造及び属性の統一空間
2)多様なマルチモーダルグラフタスクの処理能力。
3)マルチモーダルグラフ・イン・コンテクスト学習
4)自然言語とのマルチモーダルグラフの相互作用
5)マルチモーダルグラフ推論。
次に、重要な課題を詳述し、関連する研究をレビューし、これらの野心的な特徴を実現するための将来的な研究の方向性を強調します。
最後に、モデルトレーニングに関係する既存のマルチモーダルグラフデータセットを要約する。
本稿では,マルチモーダルグラフデータおよびタスクの一般化に向けたMG-LLM研究の進展に寄与すると考えられる。
関連論文リスト
- MLaGA: Multimodal Large Language and Graph Assistant [9.985787670804823]
大規模言語モデル (LLMs) は, グラフ構造化データ解析の進歩に有効であることを示す。
複雑なグラフ構造やマルチモーダル属性の推論を容易にするため,LLM機能を拡張する革新的なモデルであるMultimodal Large Language and Graph Assistant (MLaGA)を導入する。
論文 参考訳(メタデータ) (2025-06-03T07:52:00Z) - UniGraph2: Learning a Unified Embedding Space to Bind Multimodal Graphs [34.48393396390799]
マルチモーダルグラフ上での汎用的な表現学習を可能にする新しいクロスドメイングラフ基盤モデルを提案する。
UniGraph2は、グラフニューラルネットワーク(GNN)と共にモダリティ固有のエンコーダを使用して、統一された低次元埋め込み空間を学習する。
我々は,UniGraph2が表現学習,伝達学習,マルチモーダル生成タスクなどのタスクにおいて,最先端モデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2025-02-02T14:04:53Z) - MIO: A Foundation Model on Multimodal Tokens [74.85153216521945]
マルチモーダルトークン上に構築された新しい基礎モデルMIOを紹介する。
MIOは、エンドツーエンドの自己回帰的な方法で、音声、テキスト、画像、ビデオを理解し、生成することができる。
論文 参考訳(メタデータ) (2024-09-26T09:57:16Z) - Mosaic of Modalities: A Comprehensive Benchmark for Multimodal Graph Learning [36.75510196380185]
本稿では,視覚情報とテキスト情報の両方をグラフ学習タスクに組み込んだ先駆的なベンチマークであるMultimodal Graph Benchmark(MM-GRAPH)を紹介する。
MM-GRAPHは、既存のテキスト分散グラフベンチマークを超えて、マルチモーダルグラフ学習のためのより包括的な評価フレームワークを提供する。
本研究は,視覚データをグラフ学習に統合する上での課題と機会について,貴重な知見を提供する。
論文 参考訳(メタデータ) (2024-06-24T05:14:09Z) - SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation [61.392147185793476]
統一的で汎用的な基礎モデル、すなわちSEED-Xを提案する。
SEED-Xは、理解および生成タスクのための多粒度視覚意味論をモデル化することができる。
我々の研究が、現実世界のアプリケーションで多目的なマルチモーダル基盤モデルによって達成できるものについて、将来の研究に刺激を与えることを期待しています。
論文 参考訳(メタデータ) (2024-04-22T17:56:09Z) - Learning on Multimodal Graphs: A Survey [6.362513821299131]
マルチモーダルデータは医療、ソーシャルメディア、交通など様々な領域に及んでいる。
マルチモーダルグラフ学習(MGL)は、人工知能(AI)アプリケーションの成功に不可欠である。
論文 参考訳(メタデータ) (2024-02-07T23:50:00Z) - Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。