論文の概要: An Unsupervised Method for Building Sentence Simplification Corpora in
Multiple Languages
- arxiv url: http://arxiv.org/abs/2109.00165v1
- Date: Wed, 1 Sep 2021 03:30:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-02 18:31:58.171259
- Title: An Unsupervised Method for Building Sentence Simplification Corpora in
Multiple Languages
- Title(参考訳): 複数言語における文単純化コーパス構築のための教師なし手法
- Authors: Xinyu Lu and Jipeng Qiang and Yun Li and Yunhao Yuan and Yi Zhu
- Abstract要約: 並列文単純化(英: parallel sentence simplification, SS)は、神経SSモデリングにおいて欠如している。
本稿では,大規模なバイリンガル翻訳コーパスからSSコーパスを構築するための教師なし手法を提案する。
実験結果から,我々のコーパスで訓練したSS法は最先端の結果が得られることがわかった。
- 参考スコア(独自算出の注目度): 11.88304030657969
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The availability of parallel sentence simplification (SS) is scarce for
neural SS modelings. We propose an unsupervised method to build SS corpora from
large-scale bilingual translation corpora, alleviating the need for SS
supervised corpora. Our method is motivated by the following two findings:
neural machine translation model usually tends to generate more high-frequency
tokens and the difference of text complexity levels exists between the source
and target language of a translation corpus. By taking the pair of the source
sentences of translation corpus and the translations of their references in a
bridge language, we can construct large-scale pseudo parallel SS data. Then, we
keep these sentence pairs with a higher complexity difference as SS sentence
pairs. The building SS corpora with an unsupervised approach can satisfy the
expectations that the aligned sentences preserve the same meanings and have
difference in text complexity levels. Experimental results show that SS methods
trained by our corpora achieve the state-of-the-art results and significantly
outperform the results on English benchmark WikiLarge.
- Abstract(参考訳): 並列文単純化(SS)は神経SSモデリングでは不十分である。
本稿では,大規模なバイリンガル翻訳コーパスからSSコーパスを構築するための教師なし手法を提案する。
ニューラルマシン翻訳モデルは、通常、より高周波なトークンを生成する傾向があり、翻訳コーパスのソースとターゲット言語の間には、テキストの複雑さレベルの違いが存在する。
翻訳コーパスの原文とそれらの参照の翻訳文の対をブリッジ言語で取ることにより,大規模擬似並列ssデータを構築することができる。
そして、これらの文対をss文対として高い複雑性差で保持する。
教師なしアプローチで構築されたSSコーパスは、一致した文が同じ意味を保ち、テキストの複雑さのレベルが異なるという期待を満たすことができる。
実験の結果,我々のコーパスで訓練したSS法は最先端の結果を達成し,英語のベンチマークWikiLargeの成績を大きく上回った。
関連論文リスト
- Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。
そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T04:52:31Z) - Sentence Simplification Using Paraphrase Corpus for Initialization [10.106114352727955]
パラフレーズコーパスには、SSコーパスに属する文対が多数含まれている。
これらの文ペアを高い複雑性差で保持することにより、大規模な擬似並列SSデータを構築することができる。
論文 参考訳(メタデータ) (2023-05-31T11:39:10Z) - Decomposed Prompting for Machine Translation Between Related Languages
using Large Language Models [55.35106713257871]
DecoMTは、単語チャンク翻訳のシーケンスに翻訳プロセスを分解する、数発のプロンプトの新しいアプローチである。
DecoMTはBLOOMモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-22T14:52:47Z) - Improving Cascaded Unsupervised Speech Translation with Denoising
Back-translation [70.33052952571884]
我々は,任意のペアデータを活用することなく,カスケード音声翻訳システムを構築することを提案する。
教師なしのシステムをトレーニングし、CoVoST 2 と CVSS で結果を評価するために、完全にペア化されたデータを使用します。
論文 参考訳(メタデータ) (2023-05-12T13:07:51Z) - Alleviating Over-smoothing for Unsupervised Sentence Representation [96.19497378628594]
本稿では,この問題を緩和するために,SSCL(Self-Contrastive Learning)というシンプルな手法を提案する。
提案手法は非常に単純で,様々な最先端モデルに拡張して,性能向上を図ることができる。
論文 参考訳(メタデータ) (2023-05-09T11:00:02Z) - EAG: Extract and Generate Multi-way Aligned Corpus for Complete Multi-lingual Neural Machine Translation [63.88541605363555]
EAG(Extract and Generate)は,バイリンガルデータから大規模かつ高品質なマルチウェイアライメントコーパスを構築するための2段階のアプローチである。
まず、異なる言語対から、非常に類似したソースやターゲット文を持つバイリンガルな例をペアリングして、候補に整列した例を抽出する。
次に、よく訓練された生成モデルを用いて、候補から最終的な整列例を生成する。
論文 参考訳(メタデータ) (2022-03-04T08:21:27Z) - BiSECT: Learning to Split and Rephrase Sentences with Bitexts [25.385804867037937]
この分割・言い換え処理のための新しいデータセットと新しいモデルを導入する。
BiSECTトレーニングデータは、100万の長い英語文と、より短く、意味に等価な英語文からなる。
コーパスの例を分類し、これらのカテゴリを新しいモデルで使用することにより、入力文の特定の領域を分割して編集できるようにします。
論文 参考訳(メタデータ) (2021-09-10T17:30:14Z) - Unsupervised Multilingual Sentence Embeddings for Parallel Corpus Mining [38.10950540247151]
単言語データのみに依存する多言語文の埋め込みを導出する新しい教師なし手法を提案する。
まず、教師なし機械翻訳を用いて合成並列コーパスを作成し、事前訓練された言語間マスキング言語モデル(XLM)を微調整する。
また, 2つの並列コーパスマイニング作業において, バニラXLMよりも22F1ポイント向上した。
論文 参考訳(メタデータ) (2021-05-21T15:39:16Z) - Incorporating Bilingual Dictionaries for Low Resource Semi-Supervised
Neural Machine Translation [5.958653653305609]
我々は、単語・バイ・ワードの翻訳によって合成文を生成する、広く利用可能なバイリンガル辞書を組み込んだ。
これにより、高品質なコンテンツを維持しながら、モデルの語彙を自動的に拡張する。
論文 参考訳(メタデータ) (2020-04-05T02:14:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。