論文の概要: When Graph meets Multimodal: Benchmarking on Multimodal Attributed Graphs Learning
- arxiv url: http://arxiv.org/abs/2410.09132v1
- Date: Fri, 11 Oct 2024 13:24:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 16:03:11.213057
- Title: When Graph meets Multimodal: Benchmarking on Multimodal Attributed Graphs Learning
- Title(参考訳): グラフがマルチモーダルに出会ったとき:マルチモーダルなグラフ学習のベンチマーク
- Authors: Hao Yan, Chaozhuo Li, Zhigang Yu, Jun Yin, Ruochen Liu, Peiyan Zhang, Weihao Han, Mingzheng Li, Zhengxin Zeng, Hao Sun, Weiwei Deng, Feng Sun, Qi Zhang, Senzhang Wang,
- Abstract要約: マルチモーダル属性グラフ(MAG)は、様々な現実世界のシナリオで一般的であり、一般的に2種類の知識を含んでいる。
プレトレーニング言語/視覚モデル(PLM/PVM)とグラフニューラルネットワーク(GNN)の最近の進歩は、MAGの効果的な学習を促進する。
本稿では、MAGのベンチマークデータセットの総合的かつ多種多様なコレクションであるMultimodal Attribute Graph Benchmark(MAGB)を提案する。
- 参考スコア(独自算出の注目度): 36.6581535146878
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal attributed graphs (MAGs) are prevalent in various real-world scenarios and generally contain two kinds of knowledge: (a) Attribute knowledge is mainly supported by the attributes of different modalities contained in nodes (entities) themselves, such as texts and images. (b) Topology knowledge, on the other hand, is provided by the complex interactions posed between nodes. The cornerstone of MAG representation learning lies in the seamless integration of multimodal attributes and topology. Recent advancements in Pre-trained Language/Vision models (PLMs/PVMs) and Graph neural networks (GNNs) have facilitated effective learning on MAGs, garnering increased research interest. However, the absence of meaningful benchmark datasets and standardized evaluation procedures for MAG representation learning has impeded progress in this field. In this paper, we propose Multimodal Attribute Graph Benchmark (MAGB)}, a comprehensive and diverse collection of challenging benchmark datasets for MAGs. The MAGB datasets are notably large in scale and encompass a wide range of domains, spanning from e-commerce networks to social networks. In addition to the brand-new datasets, we conduct extensive benchmark experiments over MAGB with various learning paradigms, ranging from GNN-based and PLM-based methods, to explore the necessity and feasibility of integrating multimodal attributes and graph topology. In a nutshell, we provide an overview of the MAG datasets, standardized evaluation procedures, and present baseline experiments. The entire MAGB project is publicly accessible at https://github.com/sktsherlock/ATG.
- Abstract(参考訳): マルチモーダル属性グラフ(MAG)は、様々な実世界のシナリオで一般的であり、一般的に2種類の知識を含んでいる。
(a)属性知識は、主に、テキストや画像など、ノード(エンティティ)自体に含まれる異なるモダリティの属性によって支持される。
b) トポロジー知識は,ノード間の複雑な相互作用によって提供される。
MAG表現学習の基礎は、マルチモーダル属性とトポロジーのシームレスな統合にある。
プレトレーニング言語/視覚モデル(PLMs/PVMs)とグラフニューラルネットワーク(GNNs)の最近の進歩は、MAGの効果的な学習を促進し、研究の関心を高めている。
しかし、MAG表現学習のための有意義なベンチマークデータセットや標準化された評価手順が欠如していることは、この分野の進歩を妨げている。
本稿では,MAGのベンチマークデータセットの包括的かつ多種多様な集合であるMultimodal Attribute Graph Benchmark (MAGB)を提案する。
MAGBデータセットは特に大規模であり、Eコマースネットワークからソーシャルネットワークまで幅広いドメインを含んでいる。
新たなデータセットに加えて、GNNベースの手法やPLMベースの手法など、さまざまな学習パラダイムを用いたMAGB上で広範囲なベンチマーク実験を行い、マルチモーダル属性とグラフトポロジの統合の必要性と実現可能性について検討する。
簡単に言えば、MAGデータセットの概要、標準化された評価手順、および現在のベースライン実験を提供する。
MAGBプロジェクト全体はhttps://github.com/sktsherlock/ATG.comで公開されている。
関連論文リスト
- MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
このデータセットには、スキーマ図、シミュレーション画像、マクロ/顕微鏡写真、実験的可視化などの図が含まれている。
我々は,6つのプロプライエタリモデルと10以上のオープンソースモデルを評価し,科学的フィギュアキャプションと複数選択質問のベンチマークを開発した。
データセットとベンチマークは、さらなる研究をサポートするためにリリースされる予定だ。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - Multimodal Graph Benchmark [36.75510196380185]
マルチモーダルグラフベンチマーク(Multimodal Graph Benchmark、MM-GRAPH)は、テキスト情報と視覚情報の両方を組み込んだ総合的なマルチモーダルグラフベンチマークである。
MM-GRAPHは5つのグラフ学習データセットから構成されており、異なる学習タスクに適している。
MM-GRAPHは、マルチモーダルグラフ学習の研究を促進し、より高度で堅牢なグラフ学習アルゴリズムの開発を促進することを目的としている。
論文 参考訳(メタデータ) (2024-06-24T05:14:09Z) - MyGO: Discrete Modality Information as Fine-Grained Tokens for Multi-modal Knowledge Graph Completion [51.80447197290866]
MMKGの微細なモダリティ情報を処理・融合・拡張するためにMyGOを導入する。
MyGOは、マルチモーダルな生データをきめ細かい離散トークンとしてトークン化し、クロスモーダルなエンティティエンコーダでエンティティ表現を学習する。
標準MMKGCベンチマーク実験により,本手法が最新の20モデルを上回ることがわかった。
論文 参考訳(メタデータ) (2024-04-15T05:40:41Z) - NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。
NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。
提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-03-28T03:04:00Z) - Learning on Multimodal Graphs: A Survey [6.362513821299131]
マルチモーダルデータは医療、ソーシャルメディア、交通など様々な領域に及んでいる。
マルチモーダルグラフ学習(MGL)は、人工知能(AI)アプリケーションの成功に不可欠である。
論文 参考訳(メタデータ) (2024-02-07T23:50:00Z) - Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph
Propagation [68.13453771001522]
画像の領域と対応するセマンティック埋め込みとをマッチングする多モード集中型ZSLフレームワークを提案する。
我々は、大規模な実世界のデータに基づいて、広範囲な実験を行い、そのモデルを評価する。
論文 参考訳(メタデータ) (2023-06-14T13:07:48Z) - MuG: A Multimodal Classification Benchmark on Game Data with Tabular,
Textual, and Visual Fields [26.450463943664822]
本研究では,8つのデータセットを用いたマルチモーダル分類ベンチマーク MuG を提案する。
マルチアスペクトデータ分析を行い、ラベルバランス率、欠落特徴率、各モード内のデータの分布、ラベルと入力モダリティの相関など、ベンチマークに関する洞察を提供する。
論文 参考訳(メタデータ) (2023-02-06T18:09:06Z) - Learnable Graph Convolutional Network and Feature Fusion for Multi-view
Learning [30.74535386745822]
本稿では,Learningable Graph Convolutional Network and Feature Fusion (LGCN-FF) と呼ばれる統合ディープラーニングフレームワークを提案する。
特徴融合ネットワークと学習可能なグラフ畳み込みネットワークの2つのステージで構成されている。
提案したLGCN-FFは,多視点半教師付き分類において,様々な最先端手法よりも優れていることが検証された。
論文 参考訳(メタデータ) (2022-11-16T19:07:12Z) - Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge
Graph Completion [112.27103169303184]
マルチモーダル知識グラフ(MKG)は、視覚テキストの事実知識を整理する。
MKGformerは、マルチモーダルリンク予測、マルチモーダルRE、マルチモーダルNERの4つのデータセット上でSOTA性能を得ることができる。
論文 参考訳(メタデータ) (2022-05-04T23:40:04Z) - More Diverse Means Better: Multimodal Deep Learning Meets Remote Sensing
Imagery Classification [43.35966675372692]
ディープネットワークをトレーニングし、ネットワークアーキテクチャを構築する方法を示します。
特に、深層ネットワークをトレーニングし、ネットワークアーキテクチャを構築する方法と同様に、異なる融合戦略を示す。
我々のフレームワークは画素単位の分類タスクに限らず、畳み込みニューラルネットワーク(CNN)を用いた空間情報モデリングにも適用できる。
論文 参考訳(メタデータ) (2020-08-12T17:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。