論文の概要: Have Your Text and Use It Too! End-to-End Neural Data-to-Text Generation
with Semantic Fidelity
- arxiv url: http://arxiv.org/abs/2004.06577v2
- Date: Tue, 10 Nov 2020 19:09:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 09:04:48.102690
- Title: Have Your Text and Use It Too! End-to-End Neural Data-to-Text Generation
with Semantic Fidelity
- Title(参考訳): テキストを持って 使ってください!
意味的忠実度を用いたエンドツーエンドニューラルデータ-テキスト生成
- Authors: Hamza Harkous, Isabel Groves, Amir Saffari
- Abstract要約: 本稿では,ニューラルでエンドツーエンドなデータ・ツー・テキスト生成システムであるDataTunerを紹介する。
我々は2段階の世代レベルのアプローチを採り、微調整言語モデルと意味的忠実さを組み合わせた。
我々は、DataTunerが4つの主要なD2Tデータセットにまたがる自動メトリクスにおいて、技術結果の状態を達成していることを示す。
- 参考スコア(独自算出の注目度): 3.8673630752805432
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end neural data-to-text (D2T) generation has recently emerged as an
alternative to pipeline-based architectures. However, it has faced challenges
in generalizing to new domains and generating semantically consistent text. In
this work, we present DataTuner, a neural, end-to-end data-to-text generation
system that makes minimal assumptions about the data representation and the
target domain. We take a two-stage generation-reranking approach, combining a
fine-tuned language model with a semantic fidelity classifier. Each of our
components is learnt end-to-end without the need for dataset-specific
heuristics, entity delexicalization, or post-processing. We show that DataTuner
achieves state of the art results on the automated metrics across four major
D2T datasets (LDC2017T10, WebNLG, ViGGO, and Cleaned E2E), with a fluency
assessed by human annotators nearing or exceeding the human-written reference
texts. We further demonstrate that the model-based semantic fidelity scorer in
DataTuner is a better assessment tool compared to traditional, heuristic-based
measures. Our generated text has a significantly better semantic fidelity than
the state of the art across all four datasets
- Abstract(参考訳): エンドツーエンドのニューラルネットワークデータツーテキスト(d2t)生成は、パイプラインベースのアーキテクチャに代わるものとして最近登場した。
しかし、新しいドメインに一般化し、意味的に一貫性のあるテキストを生成するという課題に直面している。
本研究では,データ表現と対象ドメインについて最小限の仮定を行うニューラルでエンドツーエンドなデータ-テキスト生成システムであるDataTunerを提案する。
2段階の世代交代アプローチを採用し、微調整された言語モデルと意味的忠実度分類器を組み合わせる。
それぞれのコンポーネントは、データセット固有のヒューリスティック、エンティティの語彙化、後処理を必要とせずに、エンドツーエンドで学習できます。
我々は,D2Tデータセット4つ(LDC2017T10,WebNLG,ViGGO,クリーンE2E)にまたがる自動計測結果について,人間が記述した参照テキストに近づいたり超えたりすることで,DataTunerが技術結果の状態を達成していることを示す。
さらに、モデルに基づくDataTunerのセマンティックフィデリティスコアラが、従来のヒューリスティックな測定よりも優れた評価ツールであることを実証した。
生成したテキストのセマンティックな忠実さは,4つのデータセットすべてにまたがる最先端技術よりもはるかに優れています。
関連論文リスト
- VTechAGP: An Academic-to-General-Audience Text Paraphrase Dataset and Benchmark Models [5.713983191152314]
VTechAGPは、最初の学術から一般のテキストパラフレーズデータセットである。
また,新しい動的ソフトプロンプト生成言語モデルDSPT5を提案する。
トレーニングでは、動的プロンプトでキーワードを学習するために、コントラッシブ・ジェネレーション・ロス関数を利用する。
論文 参考訳(メタデータ) (2024-11-07T16:06:00Z) - Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Ontology-Free General-Domain Knowledge Graph-to-Text Generation Dataset Synthesis using Large Language Model [4.474834288759608]
Graph-to-Text(G2T)生成は構造化グラフを自然言語に言語化する。
高品質な一般ドメインG2T生成データセットの不足は、一般ドメインG2T生成研究の進展を制限する。
ウィキペディアオントロジーフリーグラフテキストデータセット(WikiOFGraph)を紹介する。
論文 参考訳(メタデータ) (2024-09-11T08:16:20Z) - Triples-to-isiXhosa (T2X): Addressing the Challenges of Low-Resource
Agglutinative Data-to-Text Generation [9.80836683456026]
我々は,低リソースかつ凝集性の高いisiXhosaのデータ・トゥ・テキストに取り組む。
我々はWebNLGのサブセットに基づいた新しいデータセットであるTriples-to-isiXhosa (T2X)を紹介する。
本研究では,T2X の評価フレームワークを開発し,データ記述の精度を計測する。
論文 参考訳(メタデータ) (2024-03-12T11:53:27Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - Learning to Synthesize Data for Semantic Parsing [57.190817162674875]
本稿では,プログラムの構成をモデル化し,プログラムを発話にマップする生成モデルを提案する。
PCFGと事前学習されたBARTの簡易性により,既存のデータから効率的に生成モデルを学習することができる。
GeoQuery と Spider の標準ベンチマークで解析する text-to-Query の in-domain と out-of-domain の両方で、この手法を評価します。
論文 参考訳(メタデータ) (2021-04-12T21:24:02Z) - Neural Data-to-Text Generation with LM-based Text Augmentation [27.822282190362856]
弱教師付きトレーニングパラダイムは10%未満のアノテーションで完全に教師付きセq2seqモデルより優れていることを示す。
すべての注釈付きデータを利用することで、標準のSeq2seqモデルの性能を5 BLEUポイント以上向上させることができる。
論文 参考訳(メタデータ) (2021-02-06T10:21:48Z) - Data-to-Text Generation with Iterative Text Editing [3.42658286826597]
本稿では,反復的テキスト編集に基づく新しいデータ・テキスト生成手法を提案する。
まず、自明なテンプレートを用いてデータ項目をテキストに変換し、その後、文融合タスクのために訓練されたニューラルモデルにより結果のテキストを反復的に改善する。
モデルの出力は単純で、既製の事前訓練言語モデルで再帰的にフィルタリングされる。
論文 参考訳(メタデータ) (2020-11-03T13:32:38Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。