論文の概要: Graph-MLLM: Harnessing Multimodal Large Language Models for Multimodal Graph Learning
- arxiv url: http://arxiv.org/abs/2506.10282v1
- Date: Thu, 12 Jun 2025 01:44:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.522044
- Title: Graph-MLLM: Harnessing Multimodal Large Language Models for Multimodal Graph Learning
- Title(参考訳): Graph-MLLM:マルチモーダルグラフ学習のためのマルチモーダル大言語モデル
- Authors: Jiajin Liu, Dongzhe Fan, Jiacheng Shen, Chuanhao Ji, Daochen Zha, Qiaoyu Tan,
- Abstract要約: MLLM(Multimodal Large Language Models)は、多様なモダリティを表現および理解する際、顕著な能力を示す。
構造化グラフ情報(マルチモーダルグラフ、MMG)とマルチモーダルを統合することは、ソーシャルネットワーク、ヘルスケア、レコメンデーションシステムといった現実のアプリケーションに不可欠である。
既存のMMG学習手法はMLLMの活用法に基づいて3つのパラダイムに分類される。
- 参考スコア(独自算出の注目度): 23.089644598166885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have demonstrated remarkable capabilities in representing and understanding diverse modalities. However, they typically focus on modality alignment in a pairwise manner while overlooking structural relationships across data points. Integrating multimodality with structured graph information (i.e., multimodal graphs, MMGs) is essential for real-world applications such as social networks, healthcare, and recommendation systems. Existing MMG learning methods fall into three paradigms based on how they leverage MLLMs: Encoder, Aligner, and Predictor. MLLM-as-Encoder focuses on enhancing graph neural networks (GNNs) via multimodal feature fusion; MLLM-as-Aligner aligns multimodal attributes in language or hidden space to enable LLM-based graph reasoning; MLLM-as-Predictor treats MLLMs as standalone reasoners with in-context learning or fine-tuning. Despite their advances, the MMG field lacks a unified benchmark to fairly evaluate across these approaches, making it unclear what progress has been made. To bridge this gap, we present Graph-MLLM, a comprehensive benchmark for multimodal graph learning by systematically evaluating these three paradigms across six datasets with different domains. Through extensive experiments, we observe that jointly considering the visual and textual attributes of the nodes benefits graph learning, even when using pre-trained text-to-image alignment models (e.g., CLIP) as encoders. We also find that converting visual attributes into textual descriptions further improves performance compared to directly using visual inputs. Moreover, we observe that fine-tuning MLLMs on specific MMGs can achieve state-of-the-art results in most scenarios, even without explicit graph structure information. We hope that our open-sourced library will facilitate rapid, equitable evaluation and inspire further innovative research in this field.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、多様なモダリティを表現および理解する際、顕著な能力を示す。
しかし、それらは典型的には、データポイント間の構造的関係を見越しながら、ペアワイズでモダリティアライメントに焦点を当てる。
構造化グラフ情報(マルチモーダルグラフ、MMG)とマルチモーダルを統合することは、ソーシャルネットワーク、ヘルスケア、レコメンデーションシステムといった現実のアプリケーションに不可欠である。
既存のMMG学習方法は、エンコーダ(Encoder)、アリグナー(Aligner)、予測器(Predictor)の3つのパラダイムに分類される。
MLLM-as-Encoderはマルチモーダルな特徴融合によるグラフニューラルネットワーク(GNN)の強化、MLLM-as-Alignerは言語や隠れ空間のマルチモーダル属性を調整してLLMベースのグラフ推論を可能にする。
これらの進歩にもかかわらず、MMG分野はこれらのアプローチを公平に評価するための統一されたベンチマークを欠いているため、何が進展したのかは明らかでない。
このギャップを埋めるために、異なるドメインを持つ6つのデータセットにまたがるこれらの3つのパラダイムを体系的に評価することで、マルチモーダルグラフ学習のための総合的なベンチマークであるGraph-MLLMを提案する。
広範にわたる実験により,事前に訓練されたテキスト・ツー・イメージアライメントモデル(例えばCLIP)をエンコーダとして使用しても,ノードの視覚的属性とテキスト的属性を共同で考慮すればグラフ学習が有効であることがわかった。
また、視覚的属性をテキスト記述に変換することで、視覚的入力を直接使用するよりもパフォーマンスが向上することがわかった。
さらに,特定のMMG上での微調整MLLMは,明示的なグラフ構造情報なしでも,ほとんどのシナリオで最先端の結果が得られることを観察した。
当社のオープンソースライブラリが、迅速かつ公平な評価を促進し、この分野におけるさらなる革新的な研究を促すことを期待しています。
関連論文リスト
- MLaGA: Multimodal Large Language and Graph Assistant [9.985787670804823]
大規模言語モデル (LLMs) は, グラフ構造化データ解析の進歩に有効であることを示す。
複雑なグラフ構造やマルチモーダル属性の推論を容易にするため,LLM機能を拡張する革新的なモデルであるMultimodal Large Language and Graph Assistant (MLaGA)を導入する。
論文 参考訳(メタデータ) (2025-06-03T07:52:00Z) - Abstractive Visual Understanding of Multi-modal Structured Knowledge: A New Perspective for MLLM Evaluation [48.462734327375536]
MLLM(Multi-modal large language model)は、多種多様なシナリオやオブジェクトの包括的理解を可能にする。
MLLMの評価ベンチマークやリーダーボードの普及にもかかわらず、彼らはMLLMが視覚的に現れる構造化された抽象化で世界的知識を理解する上で重要な能力を見落としている。
構造化理解のためのマルチモーダルマップを基盤とした,革新的なベンチマークであるM3STRを提案する。
その結果,抽象的視覚情報を構造化知識で処理し,MLLMの総合的推論能力を向上させるための重要な軌道を図った。
論文 参考訳(メタデータ) (2025-06-02T04:00:35Z) - Eagle: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders [89.41055673919895]
本研究では,視覚エンコーダと解像度の混合を用いたMLLMの設計空間について検討する。
視覚トークンを補完的な視覚エンコーダの集合から簡単に結合することは、より複雑な混合アーキテクチャや戦略と同じくらい効果的であることがわかった。
その結果生まれたMLLMのファミリーであるEagleは、MLLMベンチマークで他の主要なオープンソースモデルを上回っている。
論文 参考訳(メタデータ) (2024-08-28T17:59:31Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。
マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。
本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z) - Which Modality should I use -- Text, Motif, or Image? : Understanding Graphs with Large Language Models [14.251972223585765]
本稿では,テキスト,画像,モチーフなどの多様性を持つグラフを符号化する新たな手法を提案する。
また、グラフ構造解析において、LLM(Large Language Models)を評価するための新しいベンチマークであるGraphTMIも提示されている。
論文 参考訳(メタデータ) (2023-11-16T12:45:41Z) - From CLIP to DINO: Visual Encoders Shout in Multi-modal Large Language
Models [36.41816380074965]
大規模言語モデル(MLLM)における視覚エンコーダの有効性について検討する。
以上の結果から,CLIPの浅層構造は,接地や領域理解といったきめ細かいタスクに特に有利であることがわかった。
我々は,CLIPとDINOをMergingと統合したシンプルな機能統合戦略であるCOMMを提案する。
論文 参考訳(メタデータ) (2023-10-13T02:41:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。