論文の概要: WikiGraphs: A Wikipedia Text - Knowledge Graph Paired Dataset
- arxiv url: http://arxiv.org/abs/2107.09556v1
- Date: Tue, 20 Jul 2021 15:18:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-21 15:11:24.798735
- Title: WikiGraphs: A Wikipedia Text - Knowledge Graph Paired Dataset
- Title(参考訳): WikiGraphs:ウィキペディアのテキスト - 知識グラフペア付きデータセット
- Authors: Luyu Wang, Yujia Li, Ozlem Aslan, Oriol Vinyals
- Abstract要約: 既存のグラフテキストペアデータセットは、通常、小さなグラフと短いテキスト(1または少数の文)を含む。
われわれの新しいデータセットWikiGraphsは、ウィキペディアの各記事とFreebaseナレッジグラフのサブグラフをペアリングすることによって収集される。
グラフとテキストデータの両方は、以前のグラフテキストのペア化データセットと比較すると、かなり大きなスケールである。
- 参考スコア(独自算出の注目度): 37.22405455503238
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present a new dataset of Wikipedia articles each paired with a knowledge
graph, to facilitate the research in conditional text generation, graph
generation and graph representation learning. Existing graph-text paired
datasets typically contain small graphs and short text (1 or few sentences),
thus limiting the capabilities of the models that can be learned on the data.
Our new dataset WikiGraphs is collected by pairing each Wikipedia article from
the established WikiText-103 benchmark (Merity et al., 2016) with a subgraph
from the Freebase knowledge graph (Bollacker et al., 2008). This makes it easy
to benchmark against other state-of-the-art text generative models that are
capable of generating long paragraphs of coherent text. Both the graphs and the
text data are of significantly larger scale compared to prior graph-text paired
datasets. We present baseline graph neural network and transformer model
results on our dataset for 3 tasks: graph -> text generation, graph -> text
retrieval and text -> graph retrieval. We show that better conditioning on the
graph provides gains in generation and retrieval quality but there is still
large room for improvement.
- Abstract(参考訳): 本稿では,知識グラフと組み合わせたウィキペディア記事のデータセットを新たに提示し,条件付きテキスト生成,グラフ生成,グラフ表現学習の研究を容易にする。
既存のグラフテキストペアデータセットは、通常、小さなグラフと短いテキスト(1または少数の文)を含んでいるため、データで学習できるモデルの能力を制限することができる。
我々の新しいデータセットWikiGraphsは、確立されたWikiText-103ベンチマーク(Merity et al., 2016)の各Wikipedia記事とFreebaseナレッジグラフ(Bollacker et al., 2008)のサブグラフをペアリングすることによって収集される。
これにより、コヒーレントテキストの長い段落を生成することのできる、最先端のテキスト生成モデルに対するベンチマークが簡単になる。
グラフとテキストデータの両方は、以前のグラフテキストのペア化データセットに比べてかなり大きなスケールである。
本稿では,グラフ->テキスト生成,グラフ->テキスト検索,テキスト->グラフ検索の3つの課題について,データセット上のベースライングラフニューラルネットワークとトランスフォーマモデル結果を提案する。
グラフの条件付けの改善は、生成と検索の質の向上をもたらすが、改善の余地は大きい。
関連論文リスト
- Ontology-Free General-Domain Knowledge Graph-to-Text Generation Dataset Synthesis using Large Language Model [4.474834288759608]
Graph-to-Text(G2T)生成は構造化グラフを自然言語に言語化する。
高品質な一般ドメインG2T生成データセットの不足は、一般ドメインG2T生成研究の進展を制限する。
ウィキペディアオントロジーフリーグラフテキストデータセット(WikiOFGraph)を紹介する。
論文 参考訳(メタデータ) (2024-09-11T08:16:20Z) - Node Level Graph Autoencoder: Unified Pretraining for Textual Graph Learning [45.70767623846523]
我々は,Node Level Graph AutoEncoder (NodeGAE) という,教師なしの新たな学習オートエンコーダフレームワークを提案する。
我々は、自動エンコーダのバックボーンとして言語モデルを使用し、テキスト再構成を事前訓練する。
本手法は,学習過程における単純さを維持し,多種多様なテキストグラフや下流タスクの一般化性を示す。
論文 参考訳(メタデータ) (2024-08-09T14:57:53Z) - TAGLAS: An atlas of text-attributed graph datasets in the era of large graph and language models [25.16561980988102]
TAGLASは、テキスト分散グラフ(TAG)データセットとベンチマークのアトラスである。
我々は、23以上のTAGデータセットを引用グラフから分子グラフまでの範囲で収集し、統合する。
すべてのデータセットやタスクをロードする、標準化された、効率的で、単純化された方法を提供する。
論文 参考訳(メタデータ) (2024-06-20T19:11:35Z) - G-Retriever: Retrieval-Augmented Generation for Textual Graph Understanding and Question Answering [61.93058781222079]
現実のテキストグラフを対象とするフレキシブルな問合せフレームワークを開発した。
一般のテキストグラフに対する最初の検索拡張生成(RAG)手法を提案する。
G-Retrieverは、このタスクをSteiner Tree最適化問題として定式化し、グラフ上でRAGを実行する。
論文 参考訳(メタデータ) (2024-02-12T13:13:04Z) - GraphextQA: A Benchmark for Evaluating Graph-Enhanced Large Language
Models [33.56759621666477]
本稿では,言語モデルへのグラフ知識の統合を評価するためのベンチマークデータセットを提案する。
提案したデータセットは,グラフの理解能力を評価し,回答生成に利用するように設計されている。
言語のみのモデルと提案したグラフ言語モデルを用いて,ペアグラフの有用性を検証し,課題の難しさを実証する。
論文 参考訳(メタデータ) (2023-10-12T16:46:58Z) - Improving Graph-Based Text Representations with Character and Word Level
N-grams [30.699644290131044]
単語と文字n-gramノードを文書ノードと組み合わせた新しい単語文字テキストグラフを提案する。
また、提案したテキストグラフをモデル化するための2つの新しいグラフベースニューラルモデルWCTextGCNとWCTextGATを提案する。
論文 参考訳(メタデータ) (2022-10-12T08:07:54Z) - Explanation Graph Generation via Pre-trained Language Models: An
Empirical Study with Contrastive Learning [84.35102534158621]
エンドツーエンドで説明グラフを生成する事前学習言語モデルについて検討する。
本稿では,ノードとエッジの編集操作によるグラフ摂動の簡易かつ効果的な方法を提案する。
提案手法は,説明グラフの構造的精度と意味的精度を両立させる。
論文 参考訳(メタデータ) (2022-04-11T00:58:27Z) - Hierarchical Heterogeneous Graph Representation Learning for Short Text
Classification [60.233529926965836]
短文分類のためのグラフニューラルネットワーク(GNN)に基づく ShiNE と呼ばれる新しい手法を提案する。
まず,短文データセットを単語レベル成分グラフからなる階層的不均一グラフとしてモデル化する。
そして、類似した短いテキスト間の効果的なラベル伝搬を容易にするショート文書グラフを動的に学習する。
論文 参考訳(メタデータ) (2021-10-30T05:33:05Z) - GraphFormers: GNN-nested Transformers for Representation Learning on
Textual Graph [53.70520466556453]
階層的にGNNコンポーネントを言語モデルのトランスフォーマーブロックと一緒にネストするGraphFormerを提案する。
提案したアーキテクチャでは、テキストエンコーディングとグラフ集約を反復的なワークフローに融合する。
さらに、プログレッシブ・ラーニング・ストラテジーを導入し、そのモデルが操作されたデータと元のデータに基づいて連続的に訓練され、グラフ上の情報を統合する能力を強化する。
論文 参考訳(メタデータ) (2021-05-06T12:20:41Z) - Multilevel Graph Matching Networks for Deep Graph Similarity Learning [79.3213351477689]
グラフ構造オブジェクト間のグラフ類似性を計算するためのマルチレベルグラフマッチングネットワーク(MGMN)フレームワークを提案する。
標準ベンチマークデータセットの欠如を補うため、グラフグラフ分類とグラフグラフ回帰タスクの両方のためのデータセットセットを作成し、収集した。
総合的な実験により、MGMNはグラフグラフ分類とグラフグラフ回帰タスクの両方において、最先端のベースラインモデルより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2020-07-08T19:48:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。