Fugu-MT 論文翻訳(概要): Have Your Text and Use It Too! End-to-End Neural Data-to-Text Generation with Semantic Fidelity

論文の概要: Have Your Text and Use It Too! End-to-End Neural Data-to-Text Generation with Semantic Fidelity

arxiv url: http://arxiv.org/abs/2004.06577v2
Date: Tue, 10 Nov 2020 19:09:46 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-15 09:04:48.102690
Title: Have Your Text and Use It Too! End-to-End Neural Data-to-Text Generation with Semantic Fidelity
Title（参考訳）: テキストを持って使ってください! 意味的忠実度を用いたエンドツーエンドニューラルデータ-テキスト生成
Authors: Hamza Harkous, Isabel Groves, Amir Saffari
Abstract要約: 本稿では,ニューラルでエンドツーエンドなデータ・ツー・テキスト生成システムであるDataTunerを紹介する。我々は2段階の世代レベルのアプローチを採り、微調整言語モデルと意味的忠実さを組み合わせた。我々は、DataTunerが4つの主要なD2Tデータセットにまたがる自動メトリクスにおいて、技術結果の状態を達成していることを示す。
参考スコア（独自算出の注目度）: 3.8673630752805432
License: http://creativecommons.org/licenses/by/4.0/
Abstract: End-to-end neural data-to-text (D2T) generation has recently emerged as an alternative to pipeline-based architectures. However, it has faced challenges in generalizing to new domains and generating semantically consistent text. In this work, we present DataTuner, a neural, end-to-end data-to-text generation system that makes minimal assumptions about the data representation and the target domain. We take a two-stage generation-reranking approach, combining a fine-tuned language model with a semantic fidelity classifier. Each of our components is learnt end-to-end without the need for dataset-specific heuristics, entity delexicalization, or post-processing. We show that DataTuner achieves state of the art results on the automated metrics across four major D2T datasets (LDC2017T10, WebNLG, ViGGO, and Cleaned E2E), with a fluency assessed by human annotators nearing or exceeding the human-written reference texts. We further demonstrate that the model-based semantic fidelity scorer in DataTuner is a better assessment tool compared to traditional, heuristic-based measures. Our generated text has a significantly better semantic fidelity than the state of the art across all four datasets
Abstract（参考訳）: エンドツーエンドのニューラルネットワークデータツーテキスト(d2t)生成は、パイプラインベースのアーキテクチャに代わるものとして最近登場した。しかし、新しいドメインに一般化し、意味的に一貫性のあるテキストを生成するという課題に直面している。本研究では,データ表現と対象ドメインについて最小限の仮定を行うニューラルでエンドツーエンドなデータ-テキスト生成システムであるDataTunerを提案する。 2段階の世代交代アプローチを採用し、微調整された言語モデルと意味的忠実度分類器を組み合わせる。それぞれのコンポーネントは、データセット固有のヒューリスティック、エンティティの語彙化、後処理を必要とせずに、エンドツーエンドで学習できます。我々は,D2Tデータセット4つ(LDC2017T10,WebNLG,ViGGO,クリーンE2E)にまたがる自動計測結果について,人間が記述した参照テキストに近づいたり超えたりすることで,DataTunerが技術結果の状態を達成していることを示す。さらに、モデルに基づくDataTunerのセマンティックフィデリティスコアラが、従来のヒューリスティックな測定よりも優れた評価ツールであることを実証した。生成したテキストのセマンティックな忠実さは,4つのデータセットすべてにまたがる最先端技術よりもはるかに優れています。

関連論文リスト

Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。これらの課題を克服するために、新しい方法論とデータセットを導入します。人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文参考訳（メタデータ） (2024-12-17T08:47:41Z)
VTechAGP: An Academic-to-General-Audience Text Paraphrase Dataset and Benchmark Models [5.713983191152314]
VTechAGPは、最初の学術から一般のテキストパラフレーズデータセットである。また,新しい動的ソフトプロンプト生成言語モデルDSPT5を提案する。トレーニングでは、動的プロンプトでキーワードを学習するために、コントラッシブ・ジェネレーション・ロス関数を利用する。
論文参考訳（メタデータ） (2024-11-07T16:06:00Z)
Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文参考訳（メタデータ） (2024-10-29T04:14:32Z)
Ontology-Free General-Domain Knowledge Graph-to-Text Generation Dataset Synthesis using Large Language Model [4.474834288759608]
Graph-to-Text(G2T)生成は構造化グラフを自然言語に言語化する。高品質な一般ドメインG2T生成データセットの不足は、一般ドメインG2T生成研究の進展を制限する。ウィキペディアオントロジーフリーグラフテキストデータセット(WikiOFGraph)を紹介する。
論文参考訳（メタデータ） (2024-09-11T08:16:20Z)
Triples-to-isiXhosa (T2X): Addressing the Challenges of Low-Resource Agglutinative Data-to-Text Generation [9.80836683456026]
我々は,低リソースかつ凝集性の高いisiXhosaのデータ・トゥ・テキストに取り組む。我々はWebNLGのサブセットに基づいた新しいデータセットであるTriples-to-isiXhosa (T2X)を紹介する。本研究では,T2X の評価フレームワークを開発し,データ記述の精度を計測する。
論文参考訳（メタデータ） (2024-03-12T11:53:27Z)
Contrastive Transformer Learning with Proximity Data Generation for Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文参考訳（メタデータ） (2023-11-15T16:26:49Z)
Unsupervised Domain Adaptive Learning via Synthetic Data for Person Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文参考訳（メタデータ） (2021-09-12T15:51:41Z)
Learning to Synthesize Data for Semantic Parsing [57.190817162674875]
本稿では,プログラムの構成をモデル化し,プログラムを発話にマップする生成モデルを提案する。 PCFGと事前学習されたBARTの簡易性により,既存のデータから効率的に生成モデルを学習することができる。 GeoQuery と Spider の標準ベンチマークで解析する text-to-Query の in-domain と out-of-domain の両方で、この手法を評価します。
論文参考訳（メタデータ） (2021-04-12T21:24:02Z)
Neural Data-to-Text Generation with LM-based Text Augmentation [27.822282190362856]
弱教師付きトレーニングパラダイムは10%未満のアノテーションで完全に教師付きセq2seqモデルより優れていることを示す。すべての注釈付きデータを利用することで、標準のSeq2seqモデルの性能を5 BLEUポイント以上向上させることができる。
論文参考訳（メタデータ） (2021-02-06T10:21:48Z)
Data-to-Text Generation with Iterative Text Editing [3.42658286826597]
本稿では,反復的テキスト編集に基づく新しいデータ・テキスト生成手法を提案する。まず、自明なテンプレートを用いてデータ項目をテキストに変換し、その後、文融合タスクのために訓練されたニューラルモデルにより結果のテキストを反復的に改善する。モデルの出力は単純で、既製の事前訓練言語モデルで再帰的にフィルタリングされる。
論文参考訳（メタデータ） (2020-11-03T13:32:38Z)
Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文参考訳（メタデータ） (2020-10-24T11:55:28Z)
Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文参考訳（メタデータ） (2020-10-03T03:18:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。