論文の概要: Substance over Style: Document-Level Targeted Content Transfer
- arxiv url: http://arxiv.org/abs/2010.08618v1
- Date: Fri, 16 Oct 2020 20:26:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 21:04:26.902108
- Title: Substance over Style: Document-Level Targeted Content Transfer
- Title(参考訳): substance over style: ドキュメントレベルのターゲティングコンテンツ転送
- Authors: Allison Hegel, Sudha Rao, Asli Celikyilmaz and Bill Dolan
- Abstract要約: 文書レベルのターゲットコンテンツ転送のタスクを導入し、レシピドメインで対処する。
生成事前学習言語モデル(GPT-2)に基づく新しいタスクモデルを提案する。
自動評価と人的評価の両方で、我々のモデルは既存の手法よりも優れています。
- 参考スコア(独自算出の注目度): 42.18770674148932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing language models excel at writing from scratch, but many real-world
scenarios require rewriting an existing document to fit a set of constraints.
Although sentence-level rewriting has been fairly well-studied, little work has
addressed the challenge of rewriting an entire document coherently. In this
work, we introduce the task of document-level targeted content transfer and
address it in the recipe domain, with a recipe as the document and a dietary
restriction (such as vegan or dairy-free) as the targeted constraint. We
propose a novel model for this task based on the generative pre-trained
language model (GPT-2) and train on a large number of roughly-aligned recipe
pairs (https://github.com/microsoft/document-level-targeted-content-transfer).
Both automatic and human evaluations show that our model out-performs existing
methods by generating coherent and diverse rewrites that obey the constraint
while remaining close to the original document. Finally, we analyze our model's
rewrites to assess progress toward the goal of making language generation more
attuned to constraints that are substantive rather than stylistic.
- Abstract(参考訳): 既存の言語モデルはゼロから書くのに優れているが、現実のシナリオの多くは制約に合うように既存のドキュメントを書き直す必要がある。
文レベルの書き直しはかなりよく研究されているが、文書全体を一貫した書き直しという課題に対処する作業はほとんどない。
そこで本研究では,レシピを文書として,食事制限(ビーガンや乳製品フリーなど)を対象とする,文書レベルのターゲットコンテンツ転送のタスクを導入し,レシピドメインでそれに対応する。
本稿では、生成事前学習言語モデル(GPT-2)に基づく新しいモデルを提案し、多数の概ね整列したレシピペア(https://github.com/microsoft/document-level-targeted-content-transfer)をトレーニングする。
自動評価とヒューマン評価の両方により,本モデルが既存の手法よりも優れており,制約に従うような一貫性と多彩な書き直しを生成でき,元の文書に近い結果が得られる。
最後に,本モデルの書き直しを分析し,言語生成をスタイリスティックではなく静的な制約に適応させる目的に向けての進捗を評価する。
関連論文リスト
- Peek Across: Improving Multi-Document Modeling via Cross-Document
Question-Answering [49.85790367128085]
我々は,事前学習対象に答える新しいクロスドキュメント質問から,汎用的なマルチドキュメントモデルを事前学習する。
この新規なマルチドキュメントQA定式化は、クロステキスト情報関係をよりよく回復させるようモデルに指示する。
分類タスクや要約タスクに焦点を当てた従来のマルチドキュメントモデルとは異なり、事前学習対象の定式化により、短いテキスト生成と長いテキスト生成の両方を含むタスクを実行できる。
論文 参考訳(メタデータ) (2023-05-24T17:48:40Z) - Towards Document-Level Paraphrase Generation with Sentence Rewriting and
Reordering [88.08581016329398]
文書レベルのパラフレーズ生成のためのCoRPG(Coherence Relation Guided Paraphrase Generation)を提案する。
グラフGRUを用いて、コヒーレンス関係グラフを符号化し、各文のコヒーレンス対応表現を得る。
我々のモデルは、より多様性とセマンティックな保存を伴う文書パラフレーズを生成することができる。
論文 参考訳(メタデータ) (2021-09-15T05:53:40Z) - Automatic Document Sketching: Generating Drafts from Analogous Texts [44.626645471195495]
著者がレビューと修正を行うためのドラフト文書全体を生成する新しいタスクである文書スケッチを導入する。
これらのドラフトは、コンテンツのばらつきながら、形式的に重複するドキュメントのセット - 潜在的に再利用可能なテキストの大きなセグメントを共有する - から作成されます。
本研究は,変圧器を用いた専門家の混合と強化学習の併用を含む,弱教師付き手法の適用について検討する。
論文 参考訳(メタデータ) (2021-06-14T06:46:06Z) - LAWDR: Language-Agnostic Weighted Document Representations from
Pre-trained Models [8.745407715423992]
言語間文書表現は、多言語コンテキストにおける言語理解を可能にする。
BERT、XLM、XLM-RoBERTaのような大規模な事前学習言語モデルは、文レベルの下流タスクを微調整することで大きな成功を収めた。
論文 参考訳(メタデータ) (2021-06-07T07:14:00Z) - DRAG: Director-Generator Language Modelling Framework for Non-Parallel
Author Stylized Rewriting [9.275464023441227]
書き直しは、入力テキストを特定の著者のスタイルで書き直す作業である。
著者のスタイルでコンテンツの書き直しを行うためのディレクター・ジェネレータフレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-28T06:52:40Z) - Robust Document Representations using Latent Topics and Metadata [17.306088038339336]
本稿では,文書分類問題に対する事前学習型ニューラルネットワークモデルの微調整手法を提案する。
テキストとメタデータの両方をタスク形式でキャプチャする文書表現を生成します。
私たちのソリューションでは、メタデータを単にテキストで拡張するのではなく、明示的に組み込んでいます。
論文 参考訳(メタデータ) (2020-10-23T21:52:38Z) - Pre-training via Paraphrasing [96.79972492585112]
教師なし多言語パラフレージング目的を用いて学習した,事前学習されたシーケンス・ツー・シーケンスモデルであるMARGEを紹介する。
ランダムな初期化のみを前提として,検索と再構築を共同で行うことができることを示す。
例えば、追加のタスク固有のトレーニングがなければ、文書翻訳のBLEUスコアは最大35.8に達する。
論文 参考訳(メタデータ) (2020-06-26T14:43:43Z) - Pre-training for Abstractive Document Summarization by Reinstating
Source Text [105.77348528847337]
本稿では,Seq2Seqに基づく非ラベルテキストによる抽象要約モデルの事前学習を可能にする3つの事前学習目標を提案する。
2つのベンチマーク要約データセットの実験では、3つの目的がすべてベースラインでパフォーマンスを向上させることが示されている。
論文 参考訳(メタデータ) (2020-04-04T05:06:26Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。