論文の概要: TAGLAS: An atlas of text-attributed graph datasets in the era of large graph and language models
- arxiv url: http://arxiv.org/abs/2406.14683v1
- Date: Thu, 20 Jun 2024 19:11:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 18:08:45.590935
- Title: TAGLAS: An atlas of text-attributed graph datasets in the era of large graph and language models
- Title(参考訳): TAGLAS: 大規模グラフと言語モデルの時代におけるテキスト分散グラフデータセットのアトラス
- Authors: Jiarui Feng, Hao Liu, Lecheng Kong, Yixin Chen, Muhan Zhang,
- Abstract要約: TAGLASは、テキスト分散グラフ(TAG)データセットとベンチマークのアトラスである。
我々は、23以上のTAGデータセットを引用グラフから分子グラフまでの範囲で収集し、統合する。
すべてのデータセットやタスクをロードする、標準化された、効率的で、単純化された方法を提供する。
- 参考スコア(独自算出の注目度): 26.66588890387872
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this report, we present TAGLAS, an atlas of text-attributed graph (TAG) datasets and benchmarks. TAGs are graphs with node and edge features represented in text, which have recently gained wide applicability in training graph-language or graph foundation models. In TAGLAS, we collect and integrate more than 23 TAG datasets with domains ranging from citation graphs to molecule graphs and tasks from node classification to graph question-answering. Unlike previous graph datasets and benchmarks, all datasets in TAGLAS have a unified node and edge text feature format, which allows a graph model to be simultaneously trained and evaluated on multiple datasets from various domains. Further, we provide a standardized, efficient, and simplified way to load all datasets and tasks. We also provide useful utils like text-to-embedding conversion, and graph-to-text conversion, which can facilitate different evaluation scenarios. Finally, we also provide standard and easy-to-use evaluation utils. The project is open-sourced at https://github.com/JiaruiFeng/TAGLAS and is still under construction. Please expect more datasets/features in the future.
- Abstract(参考訳): 本稿では,テキスト分散グラフ(TAG)データセットとベンチマークのアトラスであるTAGLASについて述べる。
TAGは、ノードとエッジをテキストで表現したグラフであり、最近、グラフ言語やグラフ基盤モデルのトレーニングに広く適用可能になった。
TAGLASでは、23以上のTAGデータセットを、引用グラフから分子グラフ、タスク、ノード分類からグラフ質問応答までの範囲で収集、統合する。
従来のグラフデータセットやベンチマークとは異なり、TAGLASのすべてのデータセットは統一されたノードとエッジテキストの特徴形式を持ち、グラフモデルをさまざまなドメインからの複数のデータセットで同時にトレーニングし、評価することができる。
さらに、すべてのデータセットやタスクをロードする、標準化され、効率的で、単純化された方法を提供する。
また,テキストから埋め込みへの変換やグラフからテキストへの変換などの有用なユーティリティも提供しています。
最後に、標準的で使いやすい評価ユーティリティも提供します。
このプロジェクトはhttps://github.com/JiaruiFeng/TAGLASでオープンソース化されており、現在開発中である。
今後、より多くのデータセットやフィーチャを期待してください。
関連論文リスト
- DTGB: A Comprehensive Benchmark for Dynamic Text-Attributed Graphs [28.340416573162898]
動的テキスト分散グラフ(DyTAG)は、様々な実世界のシナリオで一般的である。
幅広い適用性にもかかわらず、DyTAGに合わせたベンチマークデータセットは、顕著に不足している。
大規模な時間進化グラフのコレクションである動的テキスト分散グラフベンチマーク(DTGB)を導入する。
論文 参考訳(メタデータ) (2024-06-17T20:16:12Z) - GAugLLM: Improving Graph Contrastive Learning for Text-Attributed Graphs with Large Language Models [33.3678293782131]
本研究は,テキスト分散グラフ(TAG)の自己教師付きグラフ学習に関する研究である。
言語指導によるビュージェネレーションの改善を目指しています。
これは、リッチなセマンティック情報を持つグラフ構造を補完する、実際のアプリケーションにおけるテキスト属性の出現によって引き起こされる。
論文 参考訳(メタデータ) (2024-06-17T17:49:19Z) - G-Retriever: Retrieval-Augmented Generation for Textual Graph Understanding and Question Answering [61.93058781222079]
現実のテキストグラフを対象とするフレキシブルな問合せフレームワークを開発した。
一般のテキストグラフに対する最初の検索拡張生成(RAG)手法を提案する。
G-Retrieverは、このタスクをSteiner Tree最適化問題として定式化し、グラフ上でRAGを実行する。
論文 参考訳(メタデータ) (2024-02-12T13:13:04Z) - Learning Multiplex Representations on Text-Attributed Graphs with One Language Model Encoder [55.24276913049635]
テキスト分散グラフ上での多重表現学習のための新しいフレームワークMETAGを提案する。
既存の手法とは対照的に、MeTAGは1つのテキストエンコーダを使用して関係性間の共有知識をモデル化する。
学術分野と電子商取引分野の5つのグラフにおいて,9つの下流タスクについて実験を行った。
論文 参考訳(メタデータ) (2023-10-10T14:59:22Z) - One for All: Towards Training One Graph Model for All Classification Tasks [61.656962278497225]
様々なグラフタスクの統一モデルは、主にグラフ学習領域に固有の課題のために、まだ探索されていない。
上記の課題に対処するために単一のグラフモデルを使用できる最初の汎用フレームワークである textbfOne for All (OFA) を提案する。
OFAは様々なタスクでうまく機能し、グラフ上の最初の汎用のクロスドメイン分類モデルとなる。
論文 参考訳(メタデータ) (2023-09-29T21:15:26Z) - ConGraT: Self-Supervised Contrastive Pretraining for Joint Graph and Text Embeddings [20.25180279903009]
テキスト分散グラフ(TAG)におけるテキストとノードの分離表現を共同学習するためのContrastive Graph-Text Pretraining(ConGraT)を提案する。
提案手法は言語モデル(LM)とグラフニューラルネットワーク(GNN)を訓練し,CLIPにインスパイアされたバッチワイドコントラスト学習目標を用いて,それらの表現を共通の潜在空間に整列させる。
実験により、ConGraTは、ノードとテキストのカテゴリ分類、リンク予測、言語モデリングなど、さまざまな下流タスクのベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-23T17:53:30Z) - Scene Graph Modification as Incremental Structure Expanding [61.84291817776118]
本研究では,既存のシーングラフを自然言語クエリに基づいて更新する方法を学習するために,シーングラフ修正(SGM)に注目した。
インクリメンタル構造拡張(ISE)の導入によるグラフ拡張タスクとしてのSGM
既存のデータセットよりも複雑なクエリと大きなシーングラフを含む、挑戦的なデータセットを構築します。
論文 参考訳(メタデータ) (2022-09-15T16:26:14Z) - WikiGraphs: A Wikipedia Text - Knowledge Graph Paired Dataset [37.22405455503238]
既存のグラフテキストペアデータセットは、通常、小さなグラフと短いテキスト(1または少数の文)を含む。
われわれの新しいデータセットWikiGraphsは、ウィキペディアの各記事とFreebaseナレッジグラフのサブグラフをペアリングすることによって収集される。
グラフとテキストデータの両方は、以前のグラフテキストのペア化データセットと比較すると、かなり大きなスケールである。
論文 参考訳(メタデータ) (2021-07-20T15:18:30Z) - Learning on Attribute-Missing Graphs [66.76561524848304]
部分ノードのみの属性が利用できるグラフがあり、他の属性が完全に欠落している可能性がある。
一般的なGNNを含む既存のグラフ学習手法では、満足な学習性能が得られない。
我々は,属性欠落グラフのための構造属性変換器(SAT)と呼ばれる新しい分布マッチングベースGNNを開発した。
論文 参考訳(メタデータ) (2020-11-03T11:09:52Z) - Iterative Context-Aware Graph Inference for Visual Dialog [126.016187323249]
本稿では,新しいコンテキスト認識グラフ(CAG)ニューラルネットワークを提案する。
グラフの各ノードは、オブジェクトベース(視覚)と履歴関連(テキスト)コンテキスト表現の両方を含む、共同意味機能に対応している。
論文 参考訳(メタデータ) (2020-04-05T13:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。