Fugu-MT 論文翻訳(概要): Mosaic of Modalities: A Comprehensive Benchmark for Multimodal Graph Learning

論文の概要: Mosaic of Modalities: A Comprehensive Benchmark for Multimodal Graph Learning

arxiv url: http://arxiv.org/abs/2406.16321v2
Date: Sun, 30 Mar 2025 06:11:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-01 19:35:56.592579
Title: Mosaic of Modalities: A Comprehensive Benchmark for Multimodal Graph Learning
Title（参考訳）: Mosaic of Modalities:マルチモーダルグラフ学習のための総合ベンチマーク
Authors: Jing Zhu, Yuhang Zhou, Shengyi Qian, Zhongmou He, Tong Zhao, Neil Shah, Danai Koutra,
Abstract要約: 本稿では,視覚情報とテキスト情報の両方をグラフ学習タスクに組み込んだ先駆的なベンチマークであるMultimodal Graph Benchmark(MM-GRAPH)を紹介する。 MM-GRAPHは、既存のテキスト分散グラフベンチマークを超えて、マルチモーダルグラフ学習のためのより包括的な評価フレームワークを提供する。本研究は,視覚データをグラフ学習に統合する上での課題と機会について,貴重な知見を提供する。
参考スコア（独自算出の注目度）: 36.75510196380185
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Graph machine learning has made significant strides in recent years, yet the integration of visual information with graph structure and its potential for improving performance in downstream tasks remains an underexplored area. To address this critical gap, we introduce the Multimodal Graph Benchmark (MM-GRAPH), a pioneering benchmark that incorporates both visual and textual information into graph learning tasks. MM-GRAPH extends beyond existing text-attributed graph benchmarks, offering a more comprehensive evaluation framework for multimodal graph learning Our benchmark comprises seven diverse datasets of varying scales (ranging from thousands to millions of edges), designed to assess algorithms across different tasks in real-world scenarios. These datasets feature rich multimodal node attributes, including visual data, which enables a more holistic evaluation of various graph learning frameworks in complex, multimodal environments. To support advancements in this emerging field, we provide an extensive empirical study on various graph learning frameworks when presented with features from multiple modalities, particularly emphasizing the impact of visual information. This study offers valuable insights into the challenges and opportunities of integrating visual data into graph learning.
Abstract（参考訳）: グラフ機械学習は近年、大きな進歩を遂げているが、グラフ構造と視覚情報の統合と、下流タスクのパフォーマンス向上の可能性は、まだ未調査の領域である。この重要なギャップに対処するために、視覚情報とテキスト情報の両方をグラフ学習タスクに組み込んだ先駆的なベンチマークであるMultimodal Graph Benchmark(MM-GRAPH)を導入する。 MM-GRAPHは、既存のテキスト分散グラフベンチマークを超えて、マルチモーダルグラフ学習のためのより包括的な評価フレームワークを提供しています。これらのデータセットは、視覚データを含むリッチなマルチモーダルノード属性を備えており、複雑なマルチモーダル環境における様々なグラフ学習フレームワークのより包括的な評価を可能にする。この先進的な分野での進歩を支援するため,複数のモダリティの特徴,特に視覚情報の影響を強調する上で,様々なグラフ学習フレームワークに関する広範な実証的研究を行った。本研究は,視覚データをグラフ学習に統合する上での課題と機会について,貴重な知見を提供する。

関連論文リスト

MLaGA: Multimodal Large Language and Graph Assistant [9.985787670804823]
大規模言語モデル (LLMs) は, グラフ構造化データ解析の進歩に有効であることを示す。複雑なグラフ構造やマルチモーダル属性の推論を容易にするため,LLM機能を拡張する革新的なモデルであるMultimodal Large Language and Graph Assistant (MLaGA)を導入する。
論文参考訳（メタデータ） (2025-06-03T07:52:00Z)
Graph-to-Vision: Multi-graph Understanding and Reasoning using Vision-Language Models [10.813015912529936]
VLM(Vision-Language Models)のマルチグラフ推論能力の評価と向上を目的とした,初の総合ベンチマークを導入する。本ベンチマークでは,4つの共通グラフ型(知識グラフ,フローチャート,マインドマップ,ルートマップ)を網羅し,同種グラフ群と異種グラフ群をサポートする。グラフ解析,推論整合性,命令追従精度を評価する多次元スコアリングフレームワークを用いて,最先端のVLMを評価した。
論文参考訳（メタデータ） (2025-03-27T12:20:37Z)
UniGraph2: Learning a Unified Embedding Space to Bind Multimodal Graphs [34.48393396390799]
マルチモーダルグラフ上での汎用的な表現学習を可能にする新しいクロスドメイングラフ基盤モデルを提案する。 UniGraph2は、グラフニューラルネットワーク(GNN)と共にモダリティ固有のエンコーダを使用して、統一された低次元埋め込み空間を学習する。我々は,UniGraph2が表現学習,伝達学習,マルチモーダル生成タスクなどのタスクにおいて,最先端モデルよりも大幅に優れていることを示す。
論文参考訳（メタデータ） (2025-02-02T14:04:53Z)
When Graph meets Multimodal: Benchmarking on Multimodal Attributed Graphs Learning [36.6581535146878]
マルチモーダル属性グラフ(MAG)は、様々な現実世界のシナリオで一般的であり、一般的に2種類の知識を含んでいる。プレトレーニング言語/視覚モデル(PLM/PVM)とグラフニューラルネットワーク(GNN)の最近の進歩は、MAGの効果的な学習を促進する。本稿では、MAGのベンチマークデータセットの総合的かつ多種多様なコレクションであるMultimodal Attribute Graph Benchmark(MAGB)を提案する。
論文参考訳（メタデータ） (2024-10-11T13:24:57Z)
Exploring Graph Structure Comprehension Ability of Multimodal Large Language Models: Case Studies [7.067145619709089]
本研究では,グラフの可視化が大規模言語モデル(LLM)の性能に与える影響について検討する。本実験は,純粋テキストグラフ表現に対するマルチモーダルアプローチの有効性を比較した。
論文参考訳（メタデータ） (2024-09-13T14:26:58Z)
Bridging Local Details and Global Context in Text-Attributed Graphs [62.522550655068336]
GraphBridgeは、コンテキストテキスト情報を活用することで、ローカルおよびグローバルな視点をブリッジするフレームワークである。提案手法は最先端性能を実現し,グラフ対応トークン削減モジュールは効率を大幅に向上し,スケーラビリティの問題を解消する。
論文参考訳（メタデータ） (2024-06-18T13:35:25Z)
Representation learning in multiplex graphs: Where and how to fuse information? [5.0235828656754915]
多重グラフはよりリッチな情報を持ち、より良いモデリング機能を提供し、潜在的に異なるソースからより詳細なデータを統合する。本稿では,マルチプレックスネットワークにおけるノードの表現を教師なしあるいは自己管理的に学習する問題に対処する。多重グラフを扱うGNNアーキテクチャの構築方法の改善を提案する。
論文参考訳（メタデータ） (2024-02-27T21:47:06Z)
Learning on Multimodal Graphs: A Survey [6.362513821299131]
マルチモーダルデータは医療、ソーシャルメディア、交通など様々な領域に及んでいる。マルチモーダルグラフ学習(MGL)は、人工知能(AI)アプリケーションの成功に不可欠である。
論文参考訳（メタデータ） (2024-02-07T23:50:00Z)
When Graph Data Meets Multimodal: A New Paradigm for Graph Understanding and Reasoning [54.84870836443311]
本稿では,画像エンコーディングとマルチモーダル技術を統合することで,グラフデータの理解と推論を行う新しいパラダイムを提案する。このアプローチは, GPT-4Vの高度な機能を利用して, 命令応答形式によるグラフデータの理解を可能にする。研究は、このパラダイムを様々なグラフタイプで評価し、特に中国のOCRパフォーマンスと複雑な推論タスクにおいて、モデルの強みと弱みを強調した。
論文参考訳（メタデータ） (2023-12-16T08:14:11Z)
GPT4Graph: Can Large Language Models Understand Graph Structured Data ? An Empirical Evaluation and Benchmarking [17.7473474499538]
ChatGPTのような大規模言語モデルは、人工知能にとって欠かせないものとなっている。本研究では,グラフデータの解釈において,LLMの精度を評価するための調査を行う。この知見は,言語モデルとグラフ理解のギャップを埋めるための貴重な洞察に寄与する。
論文参考訳（メタデータ） (2023-05-24T11:53:19Z)
Cross-view Graph Contrastive Representation Learning on Partially Aligned Multi-view Data [52.491074276133325]
マルチビュー表現学習は、過去数十年間で急速に発展し、多くの分野に応用されてきた。本稿では,多視点情報を統合してデータアライメントを行い,潜在表現を学習する,新しいクロスビューグラフコントラスト学習フレームワークを提案する。複数の実データを用いて実験を行い,クラスタリングおよび分類作業における提案手法の有効性を示した。
論文参考訳（メタデータ） (2022-11-08T09:19:32Z)
MMGA: Multimodal Learning with Graph Alignment [8.349066399479938]
本稿では,グラフ(ソーシャルネットワーク)や画像,テキストなどの情報をソーシャルメディアに組み込むための,新しいマルチモーダル事前学習フレームワークMMGAを提案する。 MMGAでは,画像とテキストエンコーダを最適化するために,多段階のグラフアライメント機構が提案されている。われわれのデータセットは、グラフ付き初のソーシャルメディアマルチモーダルデータセットであり、将来の研究を促進するために200万の投稿に基づいて特定のトピックをラベル付けした6万人のユーザーからなる。
論文参考訳（メタデータ） (2022-10-18T15:50:31Z)
Graph Pooling for Graph Neural Networks: Progress, Challenges, and Opportunities [128.55790219377315]
グラフニューラルネットワークは多くのグラフレベルのタスクの主要なアーキテクチャとして登場した。グラフプーリングは、グラフ全体の全体的グラフレベル表現を得るためには不可欠である。
論文参考訳（メタデータ） (2022-04-15T04:02:06Z)
Group Contrastive Self-Supervised Learning on Graphs [101.45974132613293]
グラフ上での自己教師型学習をコントラッシブ手法を用いて研究する。複数の部分空間におけるグラフの対比により、グラフエンコーダはより豊富な特徴を捉えることができる。
論文参考訳（メタデータ） (2021-07-20T22:09:21Z)
Model-Agnostic Graph Regularization for Few-Shot Learning [60.64531995451357]
グラフ組み込み数ショット学習に関する包括的な研究を紹介します。本稿では,ラベル間のグラフ情報の組み込みによる影響をより深く理解できるグラフ正規化手法を提案する。提案手法は,Mini-ImageNetで最大2%,ImageNet-FSで6.7%の性能向上を実現する。
論文参考訳（メタデータ） (2021-02-14T05:28:13Z)
Multi-view Graph Learning by Joint Modeling of Consistency and Inconsistency [65.76554214664101]
グラフ学習は、複数のビューから統一的で堅牢なグラフを学ぶ能力を備えた、マルチビュークラスタリングのための有望なテクニックとして登場した。本稿では,統合目的関数における多視点一貫性と多視点不整合を同時にモデル化する,新しい多視点グラフ学習フレームワークを提案する。 12のマルチビューデータセットに対する実験は、提案手法の堅牢性と効率性を実証した。
論文参考訳（メタデータ） (2020-08-24T06:11:29Z)
GCC: Graph Contrastive Coding for Graph Neural Network Pre-Training [62.73470368851127]
グラフ表現学習は現実世界の問題に対処する強力な手法として登場した。自己教師付きグラフニューラルネットワーク事前トレーニングフレームワークであるGraph Contrastive Codingを設計する。 3つのグラフ学習タスクと10のグラフデータセットについて実験を行った。
論文参考訳（メタデータ） (2020-06-17T16:18:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。