論文の概要: EventNarrative: A large-scale Event-centric Dataset for Knowledge
Graph-to-Text Generation
- arxiv url: http://arxiv.org/abs/2111.00276v1
- Date: Sat, 30 Oct 2021 15:39:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-04 05:11:48.565109
- Title: EventNarrative: A large-scale Event-centric Dataset for Knowledge
Graph-to-Text Generation
- Title(参考訳): EventNarrative: 知識グラフからテキスト生成のための大規模イベント中心データセット
- Authors: Anthony Colas, Ali Sadeghian, Yue Wang, Daisy Zhe Wang
- Abstract要約: EventNarrativeは,約23万のグラフと,対応する自然言語テキストで構成されている。
私たちの目標は2つある – データが不足しているイベント中心の研究において,新たな基盤を突破する上で,研究者が明確に定義された大規模データセットを提供することです。
- 参考スコア(独自算出の注目度): 8.216976747904726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce EventNarrative, a knowledge graph-to-text dataset from publicly
available open-world knowledge graphs. Given the recent advances in
event-driven Information Extraction (IE), and that prior research on
graph-to-text only focused on entity-driven KGs, this paper focuses on
event-centric data. However, our data generation system can still be adapted to
other other types of KG data. Existing large-scale datasets in the
graph-to-text area are non-parallel, meaning there is a large disconnect
between the KGs and text. The datasets that have a paired KG and text, are
small scale and manually generated or generated without a rich ontology, making
the corresponding graphs sparse. Furthermore, these datasets contain many
unlinked entities between their KG and text pairs. EventNarrative consists of
approximately 230,000 graphs and their corresponding natural language text, 6
times larger than the current largest parallel dataset. It makes use of a rich
ontology, all of the KGs entities are linked to the text, and our manual
annotations confirm a high data quality. Our aim is two-fold: help break new
ground in event-centric research where data is lacking, and to give researchers
a well-defined, large-scale dataset in order to better evaluate existing and
future knowledge graph-to-text models. We also evaluate two types of baseline
on EventNarrative: a graph-to-text specific model and two state-of-the-art
language models, which previous work has shown to be adaptable to the knowledge
graph-to-text domain.
- Abstract(参考訳): オープンワールドナレッジグラフの知識グラフからテキストへのデータセットであるeventnarrativeを紹介する。
イベント駆動情報抽出(IE)の最近の進歩と、グラフからテキストまでの先行研究がエンティティ駆動のKGにのみ焦点をあてていることを踏まえ、この記事ではイベント中心のデータに焦点を当てる。
しかし、私たちのデータ生成システムは、他のタイプのkgデータにも適応できます。
グラフとテキストの領域にある既存の大規模なデータセットは並列ではないため、KGとテキストの間には大きな断絶がある。
ペア化されたKGとテキストを持つデータセットは、小さなスケールで、リッチなオントロジーなしで手動で生成されたり、あるいは生成される。
さらに、これらのデータセットには、KGとテキストペアの間に多くの非リンクエンティティが含まれている。
eventnarrativeは約23万のグラフと対応する自然言語テキストで構成されており、現在の最大の並列データセットの6倍の大きさである。
リッチなオントロジーを利用し、すべてのKGsエンティティがテキストにリンクされ、手動のアノテーションによって高いデータ品質が確認されます。
データの不足しているイベント中心の研究の新たな基盤を打破し、研究者に、既存の知識グラフからテキストへのモデルをよりよく評価するための、明確に定義された大規模データセットを提供することです。
また,2種類のベースラインをイベントナラティブ上で評価した。グラフからテキストへの特定モデルと,知識グラフからテキストへの適応性を示す2つの最先端言語モデルである。
関連論文リスト
- Ontology-Free General-Domain Knowledge Graph-to-Text Generation Dataset Synthesis using Large Language Model [4.474834288759608]
Graph-to-Text(G2T)生成は構造化グラフを自然言語に言語化する。
高品質な一般ドメインG2T生成データセットの不足は、一般ドメインG2T生成研究の進展を制限する。
ウィキペディアオントロジーフリーグラフテキストデータセット(WikiOFGraph)を紹介する。
論文 参考訳(メタデータ) (2024-09-11T08:16:20Z) - iText2KG: Incremental Knowledge Graphs Construction Using Large Language Models [0.7165255458140439]
iText2KGは、後処理なしで漸進的にトピックに依存しない知識グラフを構築する方法である。
提案手法は,3つのシナリオにまたがるベースライン手法と比較して,優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-05T06:49:14Z) - Bridging Local Details and Global Context in Text-Attributed Graphs [62.522550655068336]
GraphBridgeは、コンテキストテキスト情報を活用することで、ローカルおよびグローバルな視点をブリッジするフレームワークである。
提案手法は最先端性能を実現し,グラフ対応トークン削減モジュールは効率を大幅に向上し,スケーラビリティの問題を解消する。
論文 参考訳(メタデータ) (2024-06-18T13:35:25Z) - Hierarchical Compression of Text-Rich Graphs via Large Language Models [63.75293588479027]
テキストリッチグラフは、eコマースや学術グラフのようなデータマイニングの文脈で広く使われている。
本稿では,LLMの能力とテキストリッチグラフの構造を整合させる新しい手法であるHiComを紹介する。
HiComは、Eコマースと引用グラフのノード分類において、GNNとLLMのバックボーンよりも優れている。
論文 参考訳(メタデータ) (2024-06-13T07:24:46Z) - Using Large Language Models for Zero-Shot Natural Language Generation
from Knowledge Graphs [4.56877715768796]
我々は,ChatGPTがWebNLG 2020の課題に対して,最先端のパフォーマンスを達成していることを示す。
また、LLMが解析しているデータについて既に知っていることと、出力テキストの品質との間には大きな関連性があることも示している。
論文 参考訳(メタデータ) (2023-07-14T12:45:03Z) - ConGraT: Self-Supervised Contrastive Pretraining for Joint Graph and Text Embeddings [20.25180279903009]
テキスト分散グラフ(TAG)におけるテキストとノードの分離表現を共同学習するためのContrastive Graph-Text Pretraining(ConGraT)を提案する。
提案手法は言語モデル(LM)とグラフニューラルネットワーク(GNN)を訓練し,CLIPにインスパイアされたバッチワイドコントラスト学習目標を用いて,それらの表現を共通の潜在空間に整列させる。
実験により、ConGraTは、ノードとテキストのカテゴリ分類、リンク予測、言語モデリングなど、さまざまな下流タスクのベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-23T17:53:30Z) - Deep Bidirectional Language-Knowledge Graph Pretraining [159.9645181522436]
DRAGONは、テキストとKGを大規模に融合した言語知識基盤モデルを事前学習するための自己教師型アプローチである。
我々のモデルは、入力としてテキストセグメントと関連するKGサブグラフのペアを取り、両モードから情報を双方向に融合する。
論文 参考訳(メタデータ) (2022-10-17T18:02:52Z) - GraphFormers: GNN-nested Transformers for Representation Learning on
Textual Graph [53.70520466556453]
階層的にGNNコンポーネントを言語モデルのトランスフォーマーブロックと一緒にネストするGraphFormerを提案する。
提案したアーキテクチャでは、テキストエンコーディングとグラフ集約を反復的なワークフローに融合する。
さらに、プログレッシブ・ラーニング・ストラテジーを導入し、そのモデルが操作されたデータと元のデータに基づいて連続的に訓練され、グラフ上の情報を統合する能力を強化する。
論文 参考訳(メタデータ) (2021-05-06T12:20:41Z) - CycleGT: Unsupervised Graph-to-Text and Text-to-Graph Generation via
Cycle Training [63.11444020743543]
グラフ・ツー・テキスト(G2T)とテキスト・ツー・テキスト(T2G)の変換のためのディープラーニングモデルは、訓練データ不足に悩まされる。
本稿では,非並列グラフとテキストデータからブートストラップ可能な教師なしのトレーニング手法であるCycleGTについて述べる。
論文 参考訳(メタデータ) (2020-06-08T15:59:00Z) - ENT-DESC: Entity Description Generation by Exploring Knowledge Graph [53.03778194567752]
実際には、出力記述が最も重要な知識のみをカバーするため、入力知識は十分以上である可能性がある。
我々は、KG-to-textにおけるこのような実践的なシナリオの研究を容易にするために、大規模で挑戦的なデータセットを導入する。
本稿では,元のグラフ情報をより包括的に表現できるマルチグラフ構造を提案する。
論文 参考訳(メタデータ) (2020-04-30T14:16:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。