論文の概要: Construction of Paired Knowledge Graph-Text Datasets Informed by Cyclic
Evaluation
- arxiv url: http://arxiv.org/abs/2309.11669v1
- Date: Wed, 20 Sep 2023 22:30:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 17:33:16.362835
- Title: Construction of Paired Knowledge Graph-Text Datasets Informed by Cyclic
Evaluation
- Title(参考訳): 周期的評価によるペアリング知識グラフテキストデータセットの構築
- Authors: Ali Mousavi, Xin Zhan, He Bai, Peng Shi, Theo Rekatsinas, Benjamin
Han, Yunyao Li, Jeff Pound, Josh Susskind, Natalie Schluter, Ihab Ilyas,
Navdeep Jaitly
- Abstract要約: KGとテキストペアが等価でないデータセットでトレーニングされたモデルは、より幻覚やリコールの低さに悩まされる可能性がある。
我々は、データセット上でトレーニングされたモデルが、ソースKGやテキストを循環的に再生する能力は、データセット内のKGとテキストの等価性のプロキシであると主張している。
- 参考スコア(独自算出の注目度): 26.706650109827812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Datasets that pair Knowledge Graphs (KG) and text together (KG-T) can be used
to train forward and reverse neural models that generate text from KG and vice
versa. However models trained on datasets where KG and text pairs are not
equivalent can suffer from more hallucination and poorer recall. In this paper,
we verify this empirically by generating datasets with different levels of
noise and find that noisier datasets do indeed lead to more hallucination. We
argue that the ability of forward and reverse models trained on a dataset to
cyclically regenerate source KG or text is a proxy for the equivalence between
the KG and the text in the dataset. Using cyclic evaluation we find that
manually created WebNLG is much better than automatically created TeKGen and
T-REx. Guided by these observations, we construct a new, improved dataset
called LAGRANGE using heuristics meant to improve equivalence between KG and
text and show the impact of each of the heuristics on cyclic evaluation. We
also construct two synthetic datasets using large language models (LLMs), and
observe that these are conducive to models that perform significantly well on
cyclic generation of text, but less so on cyclic generation of KGs, probably
because of a lack of a consistent underlying ontology.
- Abstract(参考訳): 知識グラフ(KG)とテキストの組み合わせ(KG-T)は、KGからテキストを生成する前方および逆ニューラルネットワークモデルのトレーニングに使用することができる。
しかし、kgとテキストペアが等価でないデータセットでトレーニングされたモデルは、幻覚やリコールに苦しむことがある。
本稿では,雑音のレベルが異なるデータセットを生成してこれを実証的に検証し,ノイズの多いデータセットがより幻覚を引き起こすことを確かめる。
我々は、ソースkgまたはテキストを循環的に再生成するためにデータセットでトレーニングされた前方および逆のモデルの能力は、データセット内のkgとテキストの等価性のプロキシであると主張する。
循環的評価を用いて、手動で作成したWebNLGは、TeKGenとT-RExを自動生成するよりもはるかに優れている。
これらの結果から,KGとテキストの等価性を向上し,各ヒューリスティックが循環評価に与える影響を示すヒューリスティックスを用いて,LAGRANGEと呼ばれる新しい改良データセットを構築した。
また,大言語モデル (LLM) を用いて2つの合成データセットを構築し,これらはテキストの周期的生成に大きく寄与するが,KGの周期的生成にはあまり寄与しないモデルに対して,一貫したオントロジーが欠如しているためと考えられる。
関連論文リスト
- Distill-SynthKG: Distilling Knowledge Graph Synthesis Workflow for Improved Coverage and Efficiency [59.6772484292295]
大規模言語モデル(LLM)によって生成される知識グラフ(KG)は、検索・拡張生成(RAG)アプリケーションにとってますます価値が増している。
既存のKG抽出法は、大規模コーパスの処理に非効率なプロンプトベースのアプローチに依存している。
LLMに基づく多段階文書レベルのKGワークフローであるSynthKGを提案する。
我々はまた、RAGのための新しいグラフベースの検索フレームワークを設計する。
論文 参考訳(メタデータ) (2024-10-22T00:47:54Z) - Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z) - Optimizing Factual Accuracy in Text Generation through Dynamic Knowledge
Selection [71.20871905457174]
言語モデル(LM)は、私たちが情報と対話する方法に革命をもたらしたが、しばしば非現実的なテキストを生成する。
従来の手法では、外部知識をテキスト生成の参照として使用して事実性を高めるが、無関係な参照の知識の混在に苦慮することが多い。
本稿では,テキスト生成プロセスを反復処理に分割するDKGenを提案する。
論文 参考訳(メタデータ) (2023-08-30T02:22:40Z) - Using Large Language Models for Zero-Shot Natural Language Generation
from Knowledge Graphs [4.56877715768796]
我々は,ChatGPTがWebNLG 2020の課題に対して,最先端のパフォーマンスを達成していることを示す。
また、LLMが解析しているデータについて既に知っていることと、出力テキストの品質との間には大きな関連性があることも示している。
論文 参考訳(メタデータ) (2023-07-14T12:45:03Z) - Syntax Controlled Knowledge Graph-to-Text Generation with Order and
Semantic Consistency [10.7334441041015]
知識グラフ・トゥ・テキスト(KG-to-text)生成は、知識グラフから分かりやすい文章を生成することを目的としている。
本稿では,キャプションから抽出した注文監督の下での知識記述順序予測を最適化する。
我々は、KGの単語をコピーする位置を制限するために、POS構文タグを組み込んだ。
論文 参考訳(メタデータ) (2022-07-02T02:42:14Z) - EventNarrative: A large-scale Event-centric Dataset for Knowledge
Graph-to-Text Generation [8.216976747904726]
EventNarrativeは,約23万のグラフと,対応する自然言語テキストで構成されている。
私たちの目標は2つある – データが不足しているイベント中心の研究において,新たな基盤を突破する上で,研究者が明確に定義された大規模データセットを提供することです。
論文 参考訳(メタデータ) (2021-10-30T15:39:20Z) - Few-shot Knowledge Graph-to-Text Generation with Pretrained Language
Models [42.38563175680914]
本稿では,知識グラフ(KG)の事実を記述した自然言語テキストの自動生成方法について検討する。
数ショットの設定を考えると、言語理解と生成において事前学習された言語モデル(PLM)の優れた能力を利用する。
論文 参考訳(メタデータ) (2021-06-03T06:48:00Z) - Temporal Knowledge Graph Reasoning Based on Evolutional Representation
Learning [59.004025528223025]
将来の事実を予測する鍵は、歴史的事実を徹底的に理解することです。
TKGは実際には異なるタイムスタンプに対応するKGのシーケンスである。
グラフ畳み込みネットワーク(GCN)に基づく新しいリカレント進化ネットワークを提案する。
論文 参考訳(メタデータ) (2021-04-21T05:12:21Z) - Inductive Learning on Commonsense Knowledge Graph Completion [89.72388313527296]
コモンセンス知識グラフ(英: Commonsense Knowledge graph、CKG)は、知識グラフ(英: knowledge graph、CKG)の一種。
本稿では,未確認のエンティティがテスト時に現れるCKG完了のための帰納学習環境について検討する。
InductivEは、ATOMICとConceptNetベンチマークの標準設定とインダクティブ設定の両方において、最先端のベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2020-09-19T16:10:26Z) - Toward Subgraph-Guided Knowledge Graph Question Generation with Graph
Neural Networks [53.58077686470096]
知識グラフ(KG)質問生成(QG)は,KGから自然言語質問を生成することを目的とする。
本研究は,KGサブグラフから質問を生成し,回答をターゲットとする,より現実的な環境に焦点を当てる。
論文 参考訳(メタデータ) (2020-04-13T15:43:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。