Fugu-MT 論文翻訳(概要): When Graph meets Multimodal: Benchmarking on Multimodal Attributed Graphs Learning

論文の概要: When Graph meets Multimodal: Benchmarking on Multimodal Attributed Graphs Learning

arxiv url: http://arxiv.org/abs/2410.09132v1
Date: Fri, 11 Oct 2024 13:24:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-30 16:03:11.213057
Title: When Graph meets Multimodal: Benchmarking on Multimodal Attributed Graphs Learning
Title（参考訳）: グラフがマルチモーダルに出会ったとき:マルチモーダルなグラフ学習のベンチマーク
Authors: Hao Yan, Chaozhuo Li, Zhigang Yu, Jun Yin, Ruochen Liu, Peiyan Zhang, Weihao Han, Mingzheng Li, Zhengxin Zeng, Hao Sun, Weiwei Deng, Feng Sun, Qi Zhang, Senzhang Wang,
Abstract要約: マルチモーダル属性グラフ(MAG)は、様々な現実世界のシナリオで一般的であり、一般的に2種類の知識を含んでいる。プレトレーニング言語/視覚モデル(PLM/PVM)とグラフニューラルネットワーク(GNN)の最近の進歩は、MAGの効果的な学習を促進する。本稿では、MAGのベンチマークデータセットの総合的かつ多種多様なコレクションであるMultimodal Attribute Graph Benchmark(MAGB)を提案する。
参考スコア（独自算出の注目度）: 36.6581535146878
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal attributed graphs (MAGs) are prevalent in various real-world scenarios and generally contain two kinds of knowledge: (a) Attribute knowledge is mainly supported by the attributes of different modalities contained in nodes (entities) themselves, such as texts and images. (b) Topology knowledge, on the other hand, is provided by the complex interactions posed between nodes. The cornerstone of MAG representation learning lies in the seamless integration of multimodal attributes and topology. Recent advancements in Pre-trained Language/Vision models (PLMs/PVMs) and Graph neural networks (GNNs) have facilitated effective learning on MAGs, garnering increased research interest. However, the absence of meaningful benchmark datasets and standardized evaluation procedures for MAG representation learning has impeded progress in this field. In this paper, we propose Multimodal Attribute Graph Benchmark (MAGB)}, a comprehensive and diverse collection of challenging benchmark datasets for MAGs. The MAGB datasets are notably large in scale and encompass a wide range of domains, spanning from e-commerce networks to social networks. In addition to the brand-new datasets, we conduct extensive benchmark experiments over MAGB with various learning paradigms, ranging from GNN-based and PLM-based methods, to explore the necessity and feasibility of integrating multimodal attributes and graph topology. In a nutshell, we provide an overview of the MAG datasets, standardized evaluation procedures, and present baseline experiments. The entire MAGB project is publicly accessible at https://github.com/sktsherlock/ATG.
Abstract（参考訳）: マルチモーダル属性グラフ(MAG)は、様々な実世界のシナリオで一般的であり、一般的に2種類の知識を含んでいる。 (a)属性知識は、主に、テキストや画像など、ノード(エンティティ)自体に含まれる異なるモダリティの属性によって支持される。 b) トポロジー知識は,ノード間の複雑な相互作用によって提供される。 MAG表現学習の基礎は、マルチモーダル属性とトポロジーのシームレスな統合にある。プレトレーニング言語/視覚モデル(PLMs/PVMs)とグラフニューラルネットワーク(GNNs)の最近の進歩は、MAGの効果的な学習を促進し、研究の関心を高めている。しかし、MAG表現学習のための有意義なベンチマークデータセットや標準化された評価手順が欠如していることは、この分野の進歩を妨げている。本稿では,MAGのベンチマークデータセットの包括的かつ多種多様な集合であるMultimodal Attribute Graph Benchmark (MAGB)を提案する。 MAGBデータセットは特に大規模であり、Eコマースネットワークからソーシャルネットワークまで幅広いドメインを含んでいる。新たなデータセットに加えて、GNNベースの手法やPLMベースの手法など、さまざまな学習パラダイムを用いたMAGB上で広範囲なベンチマーク実験を行い、マルチモーダル属性とグラフトポロジの統合の必要性と実現可能性について検討する。簡単に言えば、MAGデータセットの概要、標準化された評価手順、および現在のベースライン実験を提供する。 MAGBプロジェクト全体はhttps://github.com/sktsherlock/ATG.comで公開されている。

関連論文リスト

MMGraphRAG: Bridging Vision and Language with Interpretable Multimodal Knowledge Graphs [6.165053219836395]
本稿では,シーングラフを通して視覚コンテンツを洗練し,マルチモーダルな知識グラフを構築するMMGraphRAGを提案する。スペクトルクラスタリングを用いてクロスモーダルなエンティティリンクを実現し、推論経路に沿ってコンテキストを取得して生成プロセスを導く。実験結果から,MMGraphRAGはDocBenchとMMLongBenchのデータセット上で最先端の性能を実現することがわかった。
論文参考訳（メタデータ） (2025-07-28T13:16:23Z)
Graph-MLLM: Harnessing Multimodal Large Language Models for Multimodal Graph Learning [23.089644598166885]
MLLM(Multimodal Large Language Models)は、多様なモダリティを表現および理解する際、顕著な能力を示す。構造化グラフ情報(マルチモーダルグラフ、MMG)とマルチモーダルを統合することは、ソーシャルネットワーク、ヘルスケア、レコメンデーションシステムといった現実のアプリケーションに不可欠である。既存のMMG学習手法はMLLMの活用法に基づいて3つのパラダイムに分類される。
論文参考訳（メタデータ） (2025-06-12T01:44:46Z)
UniGraph2: Learning a Unified Embedding Space to Bind Multimodal Graphs [34.48393396390799]
マルチモーダルグラフ上での汎用的な表現学習を可能にする新しいクロスドメイングラフ基盤モデルを提案する。 UniGraph2は、グラフニューラルネットワーク(GNN)と共にモダリティ固有のエンコーダを使用して、統一された低次元埋め込み空間を学習する。我々は,UniGraph2が表現学習,伝達学習,マルチモーダル生成タスクなどのタスクにおいて,最先端モデルよりも大幅に優れていることを示す。
論文参考訳（メタデータ） (2025-02-02T14:04:53Z)
MINIMA: Modality Invariant Image Matching [52.505282811925454]
複数のクロスモーダルケースを対象とした統合画像マッチングフレームワークであるMINIMAを提案する。生成モデルを用いて、安価だがリッチなRGBのみのマッチングデータからモダリティをスケールアップする。 MD-synでは、任意の高度なマッチングパイプラインをランダムに選択したモダリティペアで直接訓練して、クロスモーダル能力を得ることができる。
論文参考訳（メタデータ） (2024-12-27T02:39:50Z)
Modality-Independent Graph Neural Networks with Global Transformers for Multimodal Recommendation [59.4356484322228]
グラフニューラルネットワーク(GNN)はこの領域で有望なパフォーマンスを示している。我々は,独立した受容場を持つGNNを別々に採用したModality-Independent Receptive Fieldsを用いたGNNを提案する。以上の結果から,特定のデータセットの特定のモダリティに対して最適な$K$は,GNNのグローバルな情報取得能力を制限する1または2以下であることが示唆された。
論文参考訳（メタデータ） (2024-12-18T16:12:26Z)
Can Graph Neural Networks Learn Language with Extremely Weak Text Supervision? [62.12375949429938]
CLIPパイプラインによる転送可能なグラフニューラルネットワーク(GNN)の構築は、3つの根本的な問題のために難しい。我々は、マルチモーダル・プロンプト・ラーニングを利用して、事前学習したGNNを下流のタスクやデータに効果的に適応させる。我々の新しいパラダイムは、グラフプロンプトとテキストプロンプトの両方を同時に学習することで、Large Language Models(LLM)と直接同じ空間にグラフを埋め込む。
論文参考訳（メタデータ） (2024-12-11T08:03:35Z)
MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
このデータセットには、スキーマ図、シミュレーション画像、マクロ/顕微鏡写真、実験的可視化などの図が含まれている。我々は,6つのプロプライエタリモデルと10以上のオープンソースモデルを評価し,科学的フィギュアキャプションと複数選択質問のベンチマークを開発した。データセットとベンチマークは、さらなる研究をサポートするためにリリースされる予定だ。
論文参考訳（メタデータ） (2024-07-06T00:40:53Z)
Multimodal Graph Benchmark [36.75510196380185]
マルチモーダルグラフベンチマーク(Multimodal Graph Benchmark、MM-GRAPH)は、テキスト情報と視覚情報の両方を組み込んだ総合的なマルチモーダルグラフベンチマークである。 MM-GRAPHは5つのグラフ学習データセットから構成されており、異なる学習タスクに適している。 MM-GRAPHは、マルチモーダルグラフ学習の研究を促進し、より高度で堅牢なグラフ学習アルゴリズムの開発を促進することを目的としている。
論文参考訳（メタデータ） (2024-06-24T05:14:09Z)
Text-space Graph Foundation Models: Comprehensive Benchmarks and New Insights [44.11628188443046]
Graph Foundation Model(GFM)は、異なるグラフやタスクに対して、統一されたバックボーンでうまく機能する。異なるモダリティと自然言語を一致させるマルチモーダルモデルに触発されたこのテキストは、近年、多様なグラフに統一された特徴空間を提供するために採用されている。これらのテキスト空間 GFM の大きな可能性にもかかわらず、この分野での現在の研究は2つの問題によって妨げられている。
論文参考訳（メタデータ） (2024-06-15T19:56:21Z)
MyGO: Discrete Modality Information as Fine-Grained Tokens for Multi-modal Knowledge Graph Completion [51.80447197290866]
MMKGの微細なモダリティ情報を処理・融合・拡張するためにMyGOを導入する。 MyGOは、マルチモーダルな生データをきめ細かい離散トークンとしてトークン化し、クロスモーダルなエンティティエンコーダでエンティティ表現を学習する。標準MMKGCベンチマーク実験により,本手法が最新の20モデルを上回ることがわかった。
論文参考訳（メタデータ） (2024-04-15T05:40:41Z)
NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。 NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文参考訳（メタデータ） (2024-03-28T03:04:00Z)
Learning on Multimodal Graphs: A Survey [6.362513821299131]
マルチモーダルデータは医療、ソーシャルメディア、交通など様々な領域に及んでいる。マルチモーダルグラフ学習(MGL)は、人工知能(AI)アプリケーションの成功に不可欠である。
論文参考訳（メタデータ） (2024-02-07T23:50:00Z)
ADAMM: Anomaly Detection of Attributed Multi-graphs with Metadata: A Unified Neural Network Approach [39.211176955683285]
有向多重グラフを処理する新しいグラフニューラルネットワークモデルADAMMを提案する。 ADAMMは、教師なしの異常検出目的を通じてメタデータとグラフレベルの表現学習を融合する。
論文参考訳（メタデータ） (2023-11-13T14:19:36Z)
Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph Propagation [68.13453771001522]
画像の領域と対応するセマンティック埋め込みとをマッチングする多モード集中型ZSLフレームワークを提案する。我々は、大規模な実世界のデータに基づいて、広範囲な実験を行い、そのモデルを評価する。
論文参考訳（メタデータ） (2023-06-14T13:07:48Z)
Information Screening whilst Exploiting! Multimodal Relation Extraction with Feature Denoising and Multimodal Topic Modeling [96.75821232222201]
既存のマルチモーダル関係抽出(MRE)研究は、内部情報過剰利用と外部情報過多という2つの共存課題に直面している。内部情報スクリーニングと外部情報活用を同時に実現する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2023-05-19T14:56:57Z)
MuG: A Multimodal Classification Benchmark on Game Data with Tabular, Textual, and Visual Fields [26.450463943664822]
本研究では,8つのデータセットを用いたマルチモーダル分類ベンチマーク MuG を提案する。マルチアスペクトデータ分析を行い、ラベルバランス率、欠落特徴率、各モード内のデータの分布、ラベルと入力モダリティの相関など、ベンチマークに関する洞察を提供する。
論文参考訳（メタデータ） (2023-02-06T18:09:06Z)
Learnable Graph Convolutional Network and Feature Fusion for Multi-view Learning [30.74535386745822]
本稿では,Learningable Graph Convolutional Network and Feature Fusion (LGCN-FF) と呼ばれる統合ディープラーニングフレームワークを提案する。特徴融合ネットワークと学習可能なグラフ畳み込みネットワークの2つのステージで構成されている。提案したLGCN-FFは,多視点半教師付き分類において,様々な最先端手法よりも優れていることが検証された。
論文参考訳（メタデータ） (2022-11-16T19:07:12Z)
MMGA: Multimodal Learning with Graph Alignment [8.349066399479938]
本稿では,グラフ(ソーシャルネットワーク)や画像,テキストなどの情報をソーシャルメディアに組み込むための,新しいマルチモーダル事前学習フレームワークMMGAを提案する。 MMGAでは,画像とテキストエンコーダを最適化するために,多段階のグラフアライメント機構が提案されている。われわれのデータセットは、グラフ付き初のソーシャルメディアマルチモーダルデータセットであり、将来の研究を促進するために200万の投稿に基づいて特定のトピックをラベル付けした6万人のユーザーからなる。
論文参考訳（メタデータ） (2022-10-18T15:50:31Z)
Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge Graph Completion [112.27103169303184]
マルチモーダル知識グラフ(MKG)は、視覚テキストの事実知識を整理する。 MKGformerは、マルチモーダルリンク予測、マルチモーダルRE、マルチモーダルNERの4つのデータセット上でSOTA性能を得ることができる。
論文参考訳（メタデータ） (2022-05-04T23:40:04Z)
Node Feature Extraction by Self-Supervised Multi-scale Neighborhood Prediction [123.20238648121445]
我々は、新しい自己教師型学習フレームワーク、グラフ情報支援ノード機能exTraction (GIANT)を提案する。 GIANT は eXtreme Multi-label Classification (XMC) 形式を利用しており、これはグラフ情報に基づいた言語モデルの微調整に不可欠である。我々は,Open Graph Benchmarkデータセット上での標準GNNパイプラインよりもGIANTの方が優れた性能を示す。
論文参考訳（メタデータ） (2021-10-29T19:55:12Z)
Bag of Tricks for Training Deeper Graph Neural Networks: A Comprehensive Benchmark Study [100.27567794045045]
ディープグラフニューラルネットワーク(GNN)のトレーニングは、非常に難しい。我々は、深層GNNの「トリック」を評価するための最初の公正かつ再現可能なベンチマークを示す。
論文参考訳（メタデータ） (2021-08-24T05:00:37Z)
More Diverse Means Better: Multimodal Deep Learning Meets Remote Sensing Imagery Classification [43.35966675372692]
ディープネットワークをトレーニングし、ネットワークアーキテクチャを構築する方法を示します。特に、深層ネットワークをトレーニングし、ネットワークアーキテクチャを構築する方法と同様に、異なる融合戦略を示す。我々のフレームワークは画素単位の分類タスクに限らず、畳み込みニューラルネットワーク(CNN)を用いた空間情報モデリングにも適用できる。
論文参考訳（メタデータ） (2020-08-12T17:45:25Z)
A Novel Graph-based Multi-modal Fusion Encoder for Neural Machine Translation [131.33610549540043]
NMTのための新しいグラフベースのマルチモーダル核融合エンコーダを提案する。まず、統合マルチモーダルグラフを用いて、入力文と画像を表す。次に、複数のグラフベースのマルチモーダル融合層を積み重ねて、ノード表現を学習するためのセマンティックな相互作用を反復的に実行する。
論文参考訳（メタデータ） (2020-07-17T04:06:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。