論文の概要: Multi-Scale Heterogeneous Text-Attributed Graph Datasets From Diverse Domains
- arxiv url: http://arxiv.org/abs/2412.08937v1
- Date: Thu, 12 Dec 2024 04:58:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:34:07.312755
- Title: Multi-Scale Heterogeneous Text-Attributed Graph Datasets From Diverse Domains
- Title(参考訳): 複数領域からの多スケール不均一テキスト分散グラフデータセット
- Authors: Yunhui Liu, Qizhuo Xie, Jinwei Shi, Jiaxu Shen, Tieke He,
- Abstract要約: 我々は,HTAG上での機械学習モデルの現実的かつ再現可能な評価のための,困難かつ多様なベンチマークデータセットのコレクションを紹介する。
私たちのHTAGデータセットは、マルチスケールで、長期間にわたって、映画、コミュニティの質問応答、学術、文学、特許ネットワークなど、幅広い領域をカバーしています。
ソースデータ、データセット構築コード、処理されたHTAG、データローダ、ベンチマークコード、評価設定はすべて、GitHubとHugging Faceで公開されている。
- 参考スコア(独自算出の注目度): 25.61868709829681
- License:
- Abstract: Heterogeneous Text-Attributed Graphs (HTAGs), where different types of entities are not only associated with texts but also connected by diverse relationships, have gained widespread popularity and application across various domains. However, current research on text-attributed graph learning predominantly focuses on homogeneous graphs, which feature a single node and edge type, thus leaving a gap in understanding how methods perform on HTAGs. One crucial reason is the lack of comprehensive HTAG datasets that offer original textual content and span multiple domains of varying sizes. To this end, we introduce a collection of challenging and diverse benchmark datasets for realistic and reproducible evaluation of machine learning models on HTAGs. Our HTAG datasets are multi-scale, span years in duration, and cover a wide range of domains, including movie, community question answering, academic, literature, and patent networks. We further conduct benchmark experiments on these datasets with various graph neural networks. All source data, dataset construction codes, processed HTAGs, data loaders, benchmark codes, and evaluation setup are publicly available at GitHub and Hugging Face.
- Abstract(参考訳): Heterogeneous Text-Attributed Graphs (HTAGs) は、さまざまな種類のエンティティがテキストに関連付けられているだけでなく、さまざまな関係によって関連付けられている。
しかし、テキスト分散グラフ学習に関する現在の研究は、主に単一ノードとエッジタイプを特徴とする同質グラフに焦点を当てており、HTAG上でのメソッドの動作方法の理解にギャップが残されている。
重要な理由のひとつは、オリジナルのテキストコンテンツを提供し、さまざまなサイズの複数のドメインにまたがる包括的なHTAGデータセットがないことだ。
この目的のために、HTAG上での機械学習モデルの現実的で再現可能な評価のための、困難で多様なベンチマークデータセットのコレクションを導入する。
私たちのHTAGデータセットは、マルチスケールで、長期間にわたって、映画、コミュニティの質問応答、学術、文学、特許ネットワークなど、幅広い領域をカバーしています。
さらに、様々なグラフニューラルネットワークを用いて、これらのデータセットのベンチマーク実験を行う。
ソースデータ、データセット構築コード、処理されたHTAG、データローダ、ベンチマークコード、評価設定はすべて、GitHubとHugging Faceで公開されている。
関連論文リスト
- TAGLAS: An atlas of text-attributed graph datasets in the era of large graph and language models [25.16561980988102]
TAGLASは、テキスト分散グラフ(TAG)データセットとベンチマークのアトラスである。
我々は、23以上のTAGデータセットを引用グラフから分子グラフまでの範囲で収集し、統合する。
すべてのデータセットやタスクをロードする、標準化された、効率的で、単純化された方法を提供する。
論文 参考訳(メタデータ) (2024-06-20T19:11:35Z) - Bridging Local Details and Global Context in Text-Attributed Graphs [62.522550655068336]
GraphBridgeは、コンテキストテキスト情報を活用することで、ローカルおよびグローバルな視点をブリッジするフレームワークである。
提案手法は最先端性能を実現し,グラフ対応トークン削減モジュールは効率を大幅に向上し,スケーラビリティの問題を解消する。
論文 参考訳(メタデータ) (2024-06-18T13:35:25Z) - DTGB: A Comprehensive Benchmark for Dynamic Text-Attributed Graphs [28.340416573162898]
動的テキスト分散グラフ(DyTAG)は、様々な実世界のシナリオで一般的である。
幅広い適用性にもかかわらず、DyTAGに合わせたベンチマークデータセットは、顕著に不足している。
大規模な時間進化グラフのコレクションである動的テキスト分散グラフベンチマーク(DTGB)を導入する。
論文 参考訳(メタデータ) (2024-06-17T20:16:12Z) - Text-space Graph Foundation Models: Comprehensive Benchmarks and New Insights [44.11628188443046]
Graph Foundation Model(GFM)は、異なるグラフやタスクに対して、統一されたバックボーンでうまく機能する。
異なるモダリティと自然言語を一致させるマルチモーダルモデルに触発されたこのテキストは、近年、多様なグラフに統一された特徴空間を提供するために採用されている。
これらのテキスト空間 GFM の大きな可能性にもかかわらず、この分野での現在の研究は2つの問題によって妨げられている。
論文 参考訳(メタデータ) (2024-06-15T19:56:21Z) - TEG-DB: A Comprehensive Dataset and Benchmark of Textual-Edge Graphs [14.437863803271808]
Text-Attributed Graphs (TAG)は、自然言語記述によるグラフ構造を強化し、データとその相互接続の詳細な描写を容易にする。
既存のTAGデータセットは、主にノードでのみテキスト情報を特徴付けており、エッジは通常、単なるバイナリまたはカテゴリ属性で表される。
このギャップに対処するため、ノードとエッジにリッチなテキスト記述を備えたTextual-Edge Graphsデータセットを導入しました。
論文 参考訳(メタデータ) (2024-06-14T06:22:47Z) - Learning Multiplex Representations on Text-Attributed Graphs with One Language Model Encoder [55.24276913049635]
テキスト分散グラフ上での多重表現学習のための新しいフレームワークMETAGを提案する。
既存の手法とは対照的に、MeTAGは1つのテキストエンコーダを使用して関係性間の共有知識をモデル化する。
学術分野と電子商取引分野の5つのグラフにおいて,9つの下流タスクについて実験を行った。
論文 参考訳(メタデータ) (2023-10-10T14:59:22Z) - One for All: Towards Training One Graph Model for All Classification Tasks [61.656962278497225]
様々なグラフタスクの統一モデルは、主にグラフ学習領域に固有の課題のために、まだ探索されていない。
上記の課題に対処するために単一のグラフモデルを使用できる最初の汎用フレームワークである textbfOne for All (OFA) を提案する。
OFAは様々なタスクでうまく機能し、グラフ上の最初の汎用のクロスドメイン分類モデルとなる。
論文 参考訳(メタデータ) (2023-09-29T21:15:26Z) - Graphonomy: Universal Image Parsing via Graph Reasoning and Transfer [140.72439827136085]
グラフィノノミー(Graphonomy)というグラフ推論・伝達学習フレームワークを提案する。
人間の知識とラベル分類を、局所畳み込みを超えた中間グラフ表現学習に組み込んでいる。
意味認識グラフの推論と転送を通じて、複数のドメインにおけるグローバルおよび構造化されたセマンティックコヒーレンシーを学習する。
論文 参考訳(メタデータ) (2021-01-26T08:19:03Z) - Cross-Domain Facial Expression Recognition: A Unified Evaluation
Benchmark and Adversarial Graph Learning [85.6386289476598]
我々は,クロスドメイン全体的特徴共適応のための新しい逆グラフ表現適応(AGRA)フレームワークを開発した。
我々は,いくつかの一般的なベンチマークで広範囲かつ公平な評価を行い,提案したAGRAフレームワークが従来の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-08-03T15:00:31Z) - Open Graph Benchmark: Datasets for Machine Learning on Graphs [86.96887552203479]
スケーラブルで堅牢で再現可能なグラフ機械学習(ML)の研究を容易にするために,Open Graph Benchmark(OGB)を提案する。
OGBデータセットは大規模で、複数の重要なグラフMLタスクを含み、さまざまなドメインをカバーする。
各データセットに対して,有意義なアプリケーション固有のデータ分割と評価指標を用いた統一評価プロトコルを提供する。
論文 参考訳(メタデータ) (2020-05-02T03:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。