論文の概要: Ontology-Free General-Domain Knowledge Graph-to-Text Generation Dataset Synthesis using Large Language Model
- arxiv url: http://arxiv.org/abs/2409.07088v1
- Date: Wed, 11 Sep 2024 08:16:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 15:14:01.444696
- Title: Ontology-Free General-Domain Knowledge Graph-to-Text Generation Dataset Synthesis using Large Language Model
- Title(参考訳): 大規模言語モデルを用いたオントロジーフリー汎用知識グラフテキスト生成データセット合成
- Authors: Daehee Kim, Deokhyung Kang, Sangwon Ryu, Gary Geunbae Lee,
- Abstract要約: Graph-to-Text(G2T)生成は構造化グラフを自然言語に言語化する。
高品質な一般ドメインG2T生成データセットの不足は、一般ドメインG2T生成研究の進展を制限する。
ウィキペディアオントロジーフリーグラフテキストデータセット(WikiOFGraph)を紹介する。
- 参考スコア(独自算出の注目度): 4.474834288759608
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge Graph-to-Text (G2T) generation involves verbalizing structured knowledge graphs into natural language text. Recent advancements in Pretrained Language Models (PLMs) have improved G2T performance, but their effectiveness depends on datasets with precise graph-text alignment. However, the scarcity of high-quality, general-domain G2T generation datasets restricts progress in the general-domain G2T generation research. To address this issue, we introduce Wikipedia Ontology-Free Graph-text dataset (WikiOFGraph), a new large-scale G2T dataset generated using a novel method that leverages Large Language Model (LLM) and Data-QuestEval. Our new dataset, which contains 5.85M general-domain graph-text pairs, offers high graph-text consistency without relying on external ontologies. Experimental results demonstrate that PLM fine-tuned on WikiOFGraph outperforms those trained on other datasets across various evaluation metrics. Our method proves to be a scalable and effective solution for generating high-quality G2T data, significantly advancing the field of G2T generation.
- Abstract(参考訳): 知識グラフからテキストへ(G2T)生成するには、構造化知識グラフを自然言語テキストに言語化する必要がある。
プレトレーニング言語モデル(PLM)の最近の進歩はG2Tの性能を改善しているが、その有効性は正確なグラフテキストアライメントを持つデータセットに依存する。
しかし、高品質な一般ドメインG2T生成データセットの不足は、一般ドメインG2T生成研究の進展を制限する。
この問題に対処するため、ウィキペディアオントロジーフリーグラフテキストデータセット(WikiOFGraph)を紹介する。これは、LLM(Large Language Model)とData-QuestEvalを利用した新しい手法を用いて生成された、新しい大規模G2Tデータセットである。
新しいデータセットは5.85万の一般ドメイングラフテキストペアを含み、外部オントロジーに頼ることなく高いグラフテキスト一貫性を提供する。
実験の結果、WikiOFGraphで微調整されたPLMは、様々な評価指標で訓練されたデータセットよりも優れていた。
提案手法は,高品質なG2Tデータを生成するためのスケーラブルで効率的なソリューションであることが証明され,G2T生成の分野は大幅に進歩した。
関連論文リスト
- A Pure Transformer Pretraining Framework on Text-attributed Graphs [50.833130854272774]
グラフ構造を先行として扱うことで,特徴中心の事前学習の視点を導入する。
我々のフレームワークであるGraph Sequence Pretraining with Transformer (GSPT)はランダムウォークを通してノードコンテキストをサンプリングする。
GSPTはノード分類とリンク予測の両方に容易に適応でき、様々なデータセットで有望な経験的成功を示す。
論文 参考訳(メタデータ) (2024-06-19T22:30:08Z) - Parameter-Efficient Tuning Large Language Models for Graph Representation Learning [62.26278815157628]
Graph-awareを導入します。
GPEFT - グラフ表現学習のための新しい手法。
グラフニューラルネットワーク(GNN)を用いて、隣接するノードからグラフプロンプトに構造情報をエンコードする。
我々は8つの異なるテキストリッチグラフで実施した総合的な実験を通じて,リンク予測評価において hit@1 と Mean Reciprocal Rank (MRR) の平均 2% の改善を観察し,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2024-04-28T18:36:59Z) - LLaGA: Large Language and Graph Assistant [73.71990472543027]
大規模言語とグラフアシスタント(LLaGA)は、グラフ構造化データの複雑さを扱う革新的なモデルである。
LLaGAは汎用性、一般化性、解釈性に優れており、異なるデータセットやタスク間で一貫して動作する。
実験の結果,LLaGAは4つのデータセットと3つのタスクに1つの単一モデルを用いて優れた性能を提供することがわかった。
論文 参考訳(メタデータ) (2024-02-13T02:03:26Z) - SimTeG: A Frustratingly Simple Approach Improves Textual Graph Learning [131.04781590452308]
テキストグラフ学習におけるフラストレーションに富んだアプローチであるSimTeGを提案する。
まず、下流タスクで予め訓練されたLM上で、教師付きパラメータ効率の微調整(PEFT)を行う。
次に、微調整されたLMの最後の隠れ状態を用いてノード埋め込みを生成する。
論文 参考訳(メタデータ) (2023-08-03T07:00:04Z) - A Robust Stacking Framework for Training Deep Graph Models with
Multifaceted Node Features [61.92791503017341]
数値ノード特徴とグラフ構造を入力とするグラフニューラルネットワーク(GNN)は,グラフデータを用いた各種教師付き学習タスクにおいて,優れた性能を示した。
IID(non-graph)データをGNNに簡単に組み込むことはできない。
本稿では、グラフ認識の伝播をIDデータに意図した任意のモデルで融合するロバストな積み重ねフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-16T22:46:33Z) - EventNarrative: A large-scale Event-centric Dataset for Knowledge
Graph-to-Text Generation [8.216976747904726]
EventNarrativeは,約23万のグラフと,対応する自然言語テキストで構成されている。
私たちの目標は2つある – データが不足しているイベント中心の研究において,新たな基盤を突破する上で,研究者が明確に定義された大規模データセットを提供することです。
論文 参考訳(メタデータ) (2021-10-30T15:39:20Z) - WikiGraphs: A Wikipedia Text - Knowledge Graph Paired Dataset [37.22405455503238]
既存のグラフテキストペアデータセットは、通常、小さなグラフと短いテキスト(1または少数の文)を含む。
われわれの新しいデータセットWikiGraphsは、ウィキペディアの各記事とFreebaseナレッジグラフのサブグラフをペアリングすることによって収集される。
グラフとテキストデータの両方は、以前のグラフテキストのペア化データセットと比較すると、かなり大きなスケールである。
論文 参考訳(メタデータ) (2021-07-20T15:18:30Z) - Stage-wise Fine-tuning for Graph-to-Text Generation [25.379346921398326]
グラフからテキストへの生成は、構造化グラフエンコーダよりも優れたパフォーマンスを達成するための事前学習言語モデル(plm)の恩恵を受けている。
本研究では, ウィキペディアで最初に微調整を行い, グラフ・テキスト生成に適応する構造化グラフ・トゥ・テキストモデルを提案する。
論文 参考訳(メタデータ) (2021-05-17T17:15:29Z) - CycleGT: Unsupervised Graph-to-Text and Text-to-Graph Generation via
Cycle Training [63.11444020743543]
グラフ・ツー・テキスト(G2T)とテキスト・ツー・テキスト(T2G)の変換のためのディープラーニングモデルは、訓練データ不足に悩まされる。
本稿では,非並列グラフとテキストデータからブートストラップ可能な教師なしのトレーニング手法であるCycleGTについて述べる。
論文 参考訳(メタデータ) (2020-06-08T15:59:00Z) - Have Your Text and Use It Too! End-to-End Neural Data-to-Text Generation
with Semantic Fidelity [3.8673630752805432]
本稿では,ニューラルでエンドツーエンドなデータ・ツー・テキスト生成システムであるDataTunerを紹介する。
我々は2段階の世代レベルのアプローチを採り、微調整言語モデルと意味的忠実さを組み合わせた。
我々は、DataTunerが4つの主要なD2Tデータセットにまたがる自動メトリクスにおいて、技術結果の状態を達成していることを示す。
論文 参考訳(メタデータ) (2020-04-08T11:16:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。