論文の概要: Sentence Simplification Using Paraphrase Corpus for Initialization
- arxiv url: http://arxiv.org/abs/2305.19754v1
- Date: Wed, 31 May 2023 11:39:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 17:00:28.200884
- Title: Sentence Simplification Using Paraphrase Corpus for Initialization
- Title(参考訳): パラフレーズコーパスによる文の簡易化
- Authors: Kang Liu and Jipeng Qiang
- Abstract要約: パラフレーズコーパスには、SSコーパスに属する文対が多数含まれている。
これらの文ペアを高い複雑性差で保持することにより、大規模な擬似並列SSデータを構築することができる。
- 参考スコア(独自算出の注目度): 10.106114352727955
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Neural sentence simplification method based on sequence-to-sequence framework
has become the mainstream method for sentence simplification (SS) task.
Unfortunately, these methods are currently limited by the scarcity of parallel
SS corpus. In this paper, we focus on how to reduce the dependence on parallel
corpus by leveraging a careful initialization for neural SS methods from
paraphrase corpus. Our work is motivated by the following two findings: (1)
Paraphrase corpus includes a large proportion of sentence pairs belonging to SS
corpus. (2) We can construct large-scale pseudo parallel SS data by keeping
these sentence pairs with a higher complexity difference. Therefore, we propose
two strategies to initialize neural SS methods using paraphrase corpus. We
train three different neural SS methods with our initialization, which can
obtain substantial improvements on the available WikiLarge data compared with
themselves without initialization.
- Abstract(参考訳): シーケンス・ツー・シーケンス・フレームワークに基づくニューラルな文単純化手法が,文単純化(SS)タスクの主流となっている。
残念ながら、これらの手法は現在並列SSコーパスの不足によって制限されている。
本稿では,パラフレーズコーパスからニューラルSS法を慎重に初期化することにより,並列コーパスへの依存を減らす方法に焦点をあてる。
本研究は,(1)paraphraseコーパスは,ssコーパスに属する文ペアの多さを含む,という2つの知見によって動機づけられている。
2)これらの文ペアを高い複雑性差で保持することにより,大規模な擬似並列SSデータを構築することができる。
そこで我々は,パラフレーズコーパスを用いてニューラルSS法を初期化する2つの手法を提案する。
我々は、初期化なしで利用可能なWikiLargeデータを大幅に改善できる3つの異なるニューラルSS法を訓練する。
関連論文リスト
- SentenceVAE: Enable Next-sentence Prediction for Large Language Models with Faster Speed, Higher Accuracy and Longer Context [49.9628075245959]
本稿では,文中の複数のトークンを1つのトークンに圧縮する文を含む文変分自動エンコーダ(文変分自動エンコーダ)と,それを再構成する文変分自動エンコーダ(文変分自動エンコーダ)を提案する。
提案手法は, 推定速度を204365%高速化し, パープレキシティ(PPL)を4675%まで低減し, メモリオーバーヘッドを8691%削減する。
論文 参考訳(メタデータ) (2024-08-01T15:45:19Z) - NapSS: Paragraph-level Medical Text Simplification via Narrative
Prompting and Sentence-matching Summarization [46.772517928718216]
そこで我々はNapSSと呼ばれる2段階戦略を提案する。
NapSSは、オリジナルの物語の流れが保存されていることを保証しながら、関連コンテンツを特定し、単純化する。
本モデルは,英語医療コーパスのSeq2seqベースラインよりも有意に優れている。
論文 参考訳(メタデータ) (2023-02-11T02:20:25Z) - An Unsupervised Method for Building Sentence Simplification Corpora in
Multiple Languages [11.88304030657969]
並列文単純化(英: parallel sentence simplification, SS)は、神経SSモデリングにおいて欠如している。
本稿では,大規模なバイリンガル翻訳コーパスからSSコーパスを構築するための教師なし手法を提案する。
実験結果から,我々のコーパスで訓練したSS法は最先端の結果が得られることがわかった。
論文 参考訳(メタデータ) (2021-09-01T03:30:06Z) - A New Sentence Ordering Method Using BERT Pretrained Model [2.1793134762413433]
本稿では,訓練段階を必要とせず,学習のための大きなコーパスを必要とする文順序付け手法を提案する。
提案手法は,5文ストーリーのコーパスであるROCStoriesの他のベースラインよりも優れていた。
この方法の他の利点の1つは、言語知識に対する解釈可能性と不要性である。
論文 参考訳(メタデータ) (2021-08-26T18:47:15Z) - Semantic-Preserving Adversarial Text Attacks [85.32186121859321]
深層モデルの脆弱性を調べるために, Bigram と Unigram を用いた適応的セマンティック保存最適化法 (BU-SPO) を提案する。
提案手法は,既存手法と比較して最小の単語数を変更することで,攻撃成功率とセマンティックス率を最大化する。
論文 参考訳(メタデータ) (2021-08-23T09:05:18Z) - Phrase-level Active Learning for Neural Machine Translation [107.28450614074002]
ドメイン内データの翻訳に所定の予算を費やすことのできる,アクティブな学習環境を提案する。
我々は、人間の翻訳者へのルーティングのために、新しいドメインの未ラベルデータから全文と個々の句を選択する。
ドイツ語と英語の翻訳タスクでは,不確実性に基づく文選択法に対して,能動的学習手法が一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-06-21T19:20:42Z) - Three Sentences Are All You Need: Local Path Enhanced Document Relation
Extraction [54.95848026576076]
本稿では,文書レベルREのエビデンス文を選択するための,恥ずかしいほど単純だが効果的な方法を提案する。
私たちはhttps://github.com/AndrewZhe/Three-Sentences-Are-All-You-Need.comでコードを公開しました。
論文 参考訳(メタデータ) (2021-06-03T12:29:40Z) - Improving Joint Layer RNN based Keyphrase Extraction by Using
Syntactical Features [0.6724914680904501]
我々は,複数のキーワード列を抽出するために,JRNNの入力層を変更することを提案する。
精度は9597,F1は7691であった。
論文 参考訳(メタデータ) (2020-09-15T14:20:04Z) - Neural CRF Model for Sentence Alignment in Text Simplification [31.62648025127563]
我々は、通常使われている2つのテキスト単純化コーパス、Newsela、Wikipediaから、手動で注釈付き文整列データセットを作成する。
実験により, 提案手法はF1の5点以上の単言語文アライメントタスクにおいて, これまでの作業よりも優れていたことがわかった。
データセットに基づいてトレーニングされたTransformerベースのseq2seqモデルは、自動評価と人的評価の両方において、テキストの簡略化のための新しい最先端技術を確立する。
論文 参考訳(メタデータ) (2020-05-05T16:47:51Z) - Fact-aware Sentence Split and Rephrase with Permutation Invariant
Training [93.66323661321113]
Sentence Split と Rephrase は、複雑な文をいくつかの単純な文に分解し、その意味を保存することを目的としている。
従来の研究では、パラレル文対からのSeq2seq学習によってこの問題に対処する傾向があった。
本稿では,この課題に対するSeq2seq学習における順序分散の効果を検証するために,置換訓練を導入する。
論文 参考訳(メタデータ) (2020-01-16T07:30:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。