論文の概要: Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation
- arxiv url: http://arxiv.org/abs/2002.10210v1
- Date: Mon, 24 Feb 2020 12:52:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 03:56:55.920321
- Title: Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation
- Title(参考訳): 文書スケールテキストコンテンツ操作のためのバイアスペクト情報選択学習
- Authors: Xiaocheng Feng, Yawei Sun, Bing Qin, Heng Gong, Yibo Sun, Wei Bi,
Xiaojiang Liu, Ting Liu
- Abstract要約: 我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
- 参考スコア(独自算出の注目度): 50.01708049531156
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we focus on a new practical task, document-scale text content
manipulation, which is the opposite of text style transfer and aims to preserve
text styles while altering the content. In detail, the input is a set of
structured records and a reference text for describing another recordset. The
output is a summary that accurately describes the partial content in the source
recordset with the same writing style of the reference. The task is
unsupervised due to lack of parallel data, and is challenging to select
suitable records and style words from bi-aspect inputs respectively and
generate a high-fidelity long document. To tackle those problems, we first
build a dataset based on a basketball game report corpus as our testbed, and
present an unsupervised neural model with interactive attention mechanism,
which is used for learning the semantic relationship between records and
reference texts to achieve better content transfer and better style
preservation. In addition, we also explore the effectiveness of the
back-translation in our task for constructing some pseudo-training pairs.
Empirical results show superiority of our approaches over competitive methods,
and the models also yield a new state-of-the-art result on a sentence-level
dataset.
- Abstract(参考訳): 本稿では,テキストスタイル転送とは逆の文書サイズのテキストコンテンツ操作という,テキストスタイルを維持しながら内容を変更することを目的とした新しい実践的課題に焦点を当てる。
詳細には、入力は構造化レコードのセットであり、他のレコードセットを記述するための参照テキストである。
出力は、参照の同じ書き方でソースレコードセットの部分内容を正確に記述する要約である。
このタスクは並列データの欠如により教師なしであり、bi-aspect入力から適切なレコードとスタイルワードをそれぞれ選択し、忠実な長文を生成することが困難である。
これらの問題に対処するために,我々はまず,バスケットボールの試合報告コーパスをベースとしたデータセットを構築し,記録と参照テキスト間の意味的関係を学習し,より優れたコンテンツ転送とスタイル保存を実現するための対話型アテンション機構を備えた教師なしニューラルモデルを提案する。
また,擬似学習ペア構築作業におけるバックトランスレーションの有効性についても検討した。
実験結果から,我々のアプローチが競争的手法よりも優れていることを示し,そのモデルは文レベルのデータセットに新たな最先端の結果を与える。
関連論文リスト
- Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - Summarization-based Data Augmentation for Document Classification [16.49709049899731]
文書分類のための簡易かつ効果的な要約型データ拡張であるSUMMaugを提案する。
まず、対象文書分類タスクの学習が容易な例を示す。
次に、生成された擬似例を用いてカリキュラム学習を行う。
論文 参考訳(メタデータ) (2023-12-01T11:34:37Z) - Prefix-Tuning Based Unsupervised Text Style Transfer [29.86587278794342]
教師なしテキストスタイル転送は、その内容を保持しながら入力文のスタイルを変更することができる生成モデルを訓練することを目的としている。
本稿では,事前学習された強力な大規模言語モデルを用いて,教師なしテキストスタイル転送のためのプレフィックス・チューニング方式を提案する。
論文 参考訳(メタデータ) (2023-10-23T06:13:08Z) - Stylized Data-to-Text Generation: A Case Study in the E-Commerce Domain [53.22419717434372]
本稿では,特定のスタイルに従ってコヒーレントテキストを生成することを目的とした新しいタスク,すなわちスタイル化されたデータ・テキスト生成を提案する。
このタスクは、生成されたテキストのロジック、構造化されていないスタイル参照、バイアスのあるトレーニングサンプルという3つの課題のため、簡単ではない。
本稿では,論理計画型データ埋め込み,マスク型スタイル埋め込み,非バイアス型スタイリングテキスト生成の3つのコンポーネントからなる,新しいスタイル付きデータ・テキスト生成モデルであるStyleD2Tを提案する。
論文 参考訳(メタデータ) (2023-05-05T03:02:41Z) - Text Revision by On-the-Fly Representation Optimization [76.11035270753757]
現在の最先端手法は、これらのタスクをシーケンスからシーケンスまでの学習問題として定式化している。
並列データを必要としないテキストリビジョンのための反復的なインプレース編集手法を提案する。
テキストの単純化に関する最先端の教師付き手法よりも、競争力があり、パフォーマンスも向上する。
論文 参考訳(メタデータ) (2022-04-15T07:38:08Z) - Automatic Document Sketching: Generating Drafts from Analogous Texts [44.626645471195495]
著者がレビューと修正を行うためのドラフト文書全体を生成する新しいタスクである文書スケッチを導入する。
これらのドラフトは、コンテンツのばらつきながら、形式的に重複するドキュメントのセット - 潜在的に再利用可能なテキストの大きなセグメントを共有する - から作成されます。
本研究は,変圧器を用いた専門家の混合と強化学習の併用を含む,弱教師付き手法の適用について検討する。
論文 参考訳(メタデータ) (2021-06-14T06:46:06Z) - Topical Change Detection in Documents via Embeddings of Long Sequences [4.13878392637062]
テキストセグメンテーションのタスクを独立した教師付き予測タスクとして定式化する。
類似セクションの段落を微調整することで、学習した特徴がトピック情報をエンコードすることを示すことができます。
文レベルで操作する従来のアプローチとは異なり、我々は常により広いコンテキストを使用します。
論文 参考訳(メタデータ) (2020-12-07T12:09:37Z) - Contextual Text Style Transfer [73.66285813595616]
コンテキストテキストスタイル転送は、文をその周囲のコンテキストを考慮した所望のスタイルに変換することを目的としている。
本稿では,各入力文とその周辺コンテキストに対して2つの異なるエンコーダを使用するコンテキスト認識スタイル転送(CAST)モデルを提案する。
Enron-ContextとReddit-Contextという2つの新しいベンチマークが、フォーマル性と攻撃性スタイルの転送のために導入された。
論文 参考訳(メタデータ) (2020-04-30T23:01:12Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。