論文の概要: CycleGT: Unsupervised Graph-to-Text and Text-to-Graph Generation via
Cycle Training
- arxiv url: http://arxiv.org/abs/2006.04702v3
- Date: Wed, 9 Dec 2020 19:29:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 23:56:20.936023
- Title: CycleGT: Unsupervised Graph-to-Text and Text-to-Graph Generation via
Cycle Training
- Title(参考訳): cyclegt: サイクルトレーニングによる教師なしグラフツーテキストおよびテキストツーグラフ生成
- Authors: Qipeng Guo, Zhijing Jin, Xipeng Qiu, Weinan Zhang, David Wipf, Zheng
Zhang
- Abstract要約: グラフ・ツー・テキスト(G2T)とテキスト・ツー・テキスト(T2G)の変換のためのディープラーニングモデルは、訓練データ不足に悩まされる。
本稿では,非並列グラフとテキストデータからブートストラップ可能な教師なしのトレーニング手法であるCycleGTについて述べる。
- 参考スコア(独自算出の注目度): 63.11444020743543
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Two important tasks at the intersection of knowledge graphs and natural
language processing are graph-to-text (G2T) and text-to-graph (T2G) conversion.
Due to the difficulty and high cost of data collection, the supervised data
available in the two fields are usually on the magnitude of tens of thousands,
for example, 18K in the WebNLG~2017 dataset after preprocessing, which is far
fewer than the millions of data for other tasks such as machine translation.
Consequently, deep learning models for G2T and T2G suffer largely from scarce
training data. We present CycleGT, an unsupervised training method that can
bootstrap from fully non-parallel graph and text data, and iteratively back
translate between the two forms. Experiments on WebNLG datasets show that our
unsupervised model trained on the same number of data achieves performance on
par with several fully supervised models. Further experiments on the
non-parallel GenWiki dataset verify that our method performs the best among
unsupervised baselines. This validates our framework as an effective approach
to overcome the data scarcity problem in the fields of G2T and T2G. Our code is
available at https://github.com/QipengGuo/CycleGT.
- Abstract(参考訳): 知識グラフと自然言語処理の交点における2つの重要なタスクは、graph-to-text(g2t)とtext-to-graph(t2g)変換である。
データ収集の困難さと高コストのため、2つのフィールドで利用可能な教師付きデータは、通常、数万の規模にある。例えば、前処理後のWebNLG~2017データセットの18Kは、機械翻訳のような他のタスクの何百万データよりもはるかに少ない。
その結果、G2TとT2Gのディープラーニングモデルは、ほとんど訓練データに悩まされている。
完全に並列でないグラフとテキストデータからブートストラップし、2つの形式を反復的に逆変換できる教師なしのトレーニング手法であるcyclegtを提案する。
WebNLGデータセットの実験では、同じ数のデータでトレーニングされた教師なしモデルは、複数の完全に教師されたモデルと同等のパフォーマンスを達成する。
非並列GenWikiデータセットに関するさらなる実験により、我々の手法が教師なしベースラインの中で最良であることを確認した。
これにより、G2TとT2Gの分野におけるデータ不足問題を克服するための効果的なアプローチとして、我々のフレームワークを検証する。
私たちのコードはhttps://github.com/qipengguo/cyclegtで利用可能です。
関連論文リスト
- Ontology-Free General-Domain Knowledge Graph-to-Text Generation Dataset Synthesis using Large Language Model [4.474834288759608]
Graph-to-Text(G2T)生成は構造化グラフを自然言語に言語化する。
高品質な一般ドメインG2T生成データセットの不足は、一般ドメインG2T生成研究の進展を制限する。
ウィキペディアオントロジーフリーグラフテキストデータセット(WikiOFGraph)を紹介する。
論文 参考訳(メタデータ) (2024-09-11T08:16:20Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - SimTeG: A Frustratingly Simple Approach Improves Textual Graph Learning [131.04781590452308]
テキストグラフ学習におけるフラストレーションに富んだアプローチであるSimTeGを提案する。
まず、下流タスクで予め訓練されたLM上で、教師付きパラメータ効率の微調整(PEFT)を行う。
次に、微調整されたLMの最後の隠れ状態を用いてノード埋め込みを生成する。
論文 参考訳(メタデータ) (2023-08-03T07:00:04Z) - Faithful Low-Resource Data-to-Text Generation through Cycle Training [14.375070014155817]
近年,構造化データからテキストを生成する手法が大幅に進歩している。
サイクルトレーニングでは、互いに逆転する2つのモデルを使用する。
サイクルトレーニングが完全に教師付きアプローチとほぼ同等のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-05-24T06:44:42Z) - INFINITY: A Simple Yet Effective Unsupervised Framework for Graph-Text
Mutual Conversion [43.70416280548082]
グラフ・ツー・テキスト(G2T)生成とテキスト・ツー・グラフ(T2G)トリプル抽出は知識グラフの構築と適用に不可欠である。
既存の教師なしのアプローチは、グラフテキスト並列データの使用を避けるため、2つのタスクを共同で学習するのに適した候補であることが判明した。
我々は、外部アノテーションツールや追加の並列情報を必要としない、シンプルで効果的な教師なしアプローチであるINFINITYを提案する。
論文 参考訳(メタデータ) (2022-09-22T03:12:43Z) - Fine-Grained Scene Graph Generation with Data Transfer [127.17675443137064]
シーングラフ生成(SGG)は、画像中の三つ子(オブジェクト、述語、オブジェクト)を抽出することを目的としている。
最近の研究は、SGGを着実に進歩させ、高レベルの視覚と言語理解に有用なツールを提供している。
そこで本研究では,プレー・アンド・プラグ方式で適用可能で,約1,807の述語クラスを持つ大規模SGGに拡張可能な,内部・外部データ転送(IETrans)手法を提案する。
論文 参考訳(メタデータ) (2022-03-22T12:26:56Z) - A multi-task semi-supervised framework for Text2Graph & Graph2Text [2.2344764434954256]
グラフからテキストとテキストの生成からグラフ抽出を共同で学習する。
我々の手法は、テキスト・トゥ・グラフ・トゥ・テキストにおける教師なしの最先端結果を上回る。
結果のモデルは、非並列データを持つ任意の新しいドメインで容易にトレーニングできる。
論文 参考訳(メタデータ) (2022-02-12T11:02:17Z) - EventNarrative: A large-scale Event-centric Dataset for Knowledge
Graph-to-Text Generation [8.216976747904726]
EventNarrativeは,約23万のグラフと,対応する自然言語テキストで構成されている。
私たちの目標は2つある – データが不足しているイベント中心の研究において,新たな基盤を突破する上で,研究者が明確に定義された大規模データセットを提供することです。
論文 参考訳(メタデータ) (2021-10-30T15:39:20Z) - KGPT: Knowledge-Grounded Pre-Training for Data-to-Text Generation [100.79870384880333]
知識に富んだテキストを生成するための知識基盤事前学習(KGPT)を提案する。
我々は、その効果を評価するために、3つの設定、すなわち、完全教師付き、ゼロショット、少数ショットを採用します。
ゼロショット設定では、WebNLG上で30 ROUGE-L以上を達成するが、他の全てのベースラインは失敗する。
論文 参考訳(メタデータ) (2020-10-05T19:59:05Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。