論文の概要: SelfSeg: A Self-supervised Sub-word Segmentation Method for Neural
Machine Translation
- arxiv url: http://arxiv.org/abs/2307.16400v1
- Date: Mon, 31 Jul 2023 04:38:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 15:49:18.969891
- Title: SelfSeg: A Self-supervised Sub-word Segmentation Method for Neural
Machine Translation
- Title(参考訳): SelfSeg: ニューラルネットワーク翻訳のための自己教師付きサブワードセグメンテーション手法
- Authors: Haiyue Song, Raj Dabre, Chenhui Chu, Sadao Kurohashi, and Eiichiro
Sumita
- Abstract要約: サブワードセグメンテーションはニューラルマシン翻訳(NMT)に不可欠な前処理ステップである
本稿では,自己教師型ニューラルネットワークサブワードセグメンテーション手法であるSelfSegを紹介する。
SelfSegはトレーニング/デコードがはるかに高速で、並列コーパスの代わりに単言語辞書のみを必要とする。
- 参考スコア(独自算出の注目度): 51.881877192924414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sub-word segmentation is an essential pre-processing step for Neural Machine
Translation (NMT). Existing work has shown that neural sub-word segmenters are
better than Byte-Pair Encoding (BPE), however, they are inefficient as they
require parallel corpora, days to train and hours to decode. This paper
introduces SelfSeg, a self-supervised neural sub-word segmentation method that
is much faster to train/decode and requires only monolingual dictionaries
instead of parallel corpora. SelfSeg takes as input a word in the form of a
partially masked character sequence, optimizes the word generation probability
and generates the segmentation with the maximum posterior probability, which is
calculated using a dynamic programming algorithm. The training time of SelfSeg
depends on word frequencies, and we explore several word frequency
normalization strategies to accelerate the training phase. Additionally, we
propose a regularization mechanism that allows the segmenter to generate
various segmentations for one word. To show the effectiveness of our approach,
we conduct MT experiments in low-, middle- and high-resource scenarios, where
we compare the performance of using different segmentation methods. The
experimental results demonstrate that on the low-resource ALT dataset, our
method achieves more than 1.2 BLEU score improvement compared with BPE and
SentencePiece, and a 1.1 score improvement over Dynamic Programming Encoding
(DPE) and Vocabulary Learning via Optimal Transport (VOLT) on average. The
regularization method achieves approximately a 4.3 BLEU score improvement over
BPE and a 1.2 BLEU score improvement over BPE-dropout, the regularized version
of BPE. We also observed significant improvements on IWSLT15 Vi->En, WMT16
Ro->En and WMT15 Fi->En datasets, and competitive results on the WMT14 De->En
and WMT14 Fr->En datasets.
- Abstract(参考訳): サブワードセグメンテーションは、Neural Machine Translation(NMT)の重要な前処理ステップである。
既存の研究によると、ニューラルネットワークのサブワードセグナーはバイトペアエンコーディング(bpe)よりも優れているが、並列コーパスやトレーニング日数、デコードに時間を要するため、非効率である。
本稿では、学習/復号にはるかに高速で、並列コーパスの代わりに単言語辞書のみを必要とする、自己教師付きニューラルネットワークサブワードセグメンテーション手法であるselfsegを提案する。
SelfSegは、部分的にマスキングされた文字列の形で単語を入力し、単語生成確率を最適化し、動的プログラミングアルゴリズムを用いて計算された最大後続確率のセグメンテーションを生成する。
SelfSegの学習時間は単語周波数に依存し,学習フェーズを高速化するための単語周波数正規化戦略を検討する。
さらに,セグメンタが単語に対して様々なセグメンテーションを生成するための正規化機構を提案する。
提案手法の有効性を示すため,低,中,高リソースシナリオでMT実験を行い,異なるセグメンテーション手法を用いた性能の比較を行った。
実験の結果,低リソースのALTデータセットでは,BPEやSentencePieceと比較して1.2BLEU以上のスコア改善が達成され,動的プログラミング符号化(DPE)やVOLT(VOLT)による語彙学習(VOLT)よりも1.1スコア改善が得られた。
正規化法はBPEよりも約4.3BLEUスコアが向上し、BPEの正規化バージョンであるBPEドロップアウトよりも1.2BLEUスコアが向上する。
また,IWSLT15 Vi->En,WMT16 Ro->En,WMT15 Fi->Enデータセットの大幅な改善や,WMT14 De->EnおよびWMT14 Fr->Enデータセットの競合結果も観察した。
関連論文リスト
- Subword Segmental Machine Translation: Unifying Segmentation and Target
Sentence Generation [7.252933737829635]
サブワードセグメント機械翻訳(SSMT)は、目標文を生成するために共同学習しながら、ターゲット文をセグメント化することを学ぶ。
6つの翻訳方向にわたる実験により、SSMTは形態学的にリッチな凝集言語に対するchrFスコアを改善することが示された。
論文 参考訳(メタデータ) (2023-05-11T17:44:29Z) - Effects of sub-word segmentation on performance of transformer language
models [0.628122931748758]
統計的セグメンテーションアルゴリズムBPEと形態素セグメンテーションのための2つの教師なしアルゴリズムを用いて訓練されたGPTモデルとBERTモデルを比較した。
形態的セグメンテーションによるトレーニングでは,1は低いパープレキシティを実現し,2はトレーニング時間でより効率的に収束し,3は下流タスクで同等あるいはより良い評価スコアを得る。
論文 参考訳(メタデータ) (2023-05-09T14:30:29Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - The Effectiveness of Morphology-aware Segmentation in Low-Resource
Neural Machine Translation [0.6091702876917281]
本稿では,低リソースのニューラルマシン翻訳環境において,いくつかの現代的サブワードセグメンテーション手法の性能評価を行う。
BPEをトークンレベルまたは文レベルで適用したセグメントと、LMVRおよびMORSELの形態に基づくセグメンテーションを比較します。
論文 参考訳(メタデータ) (2021-03-20T14:39:25Z) - BEDS: Bagging ensemble deep segmentation for nucleus segmentation with
testing stage stain augmentation [6.80053986075991]
ブートストラップ集約(bootstrap aggregating)は、弱い学習者を集めて強力な学習者になるための、標準的なアンサンブルアルゴリズムである。
本論文では,複数のU-Netを部分訓練データで訓練し,病理画像上に高密度核を分割するための簡易バギングアンサンブルディープセグメンテーション(BED)法を提案する。
本研究の貢献は,(1)核セグメンテーションのための自己センブル学習フレームワークの開発,(2)自己センブル学習によるテストステージ強化の集約,(3)自己センブルとテストステージ染色強化が優れたセグメンテーション性能のための補完的戦略であるという考えの解明,の3つである。
論文 参考訳(メタデータ) (2021-02-17T19:34:41Z) - Improving Text Generation with Student-Forcing Optimal Transport [122.11881937642401]
トレーニングモードとテストモードで生成されたシーケンスに最適なトランスポート(OT)を提案する。
テキストシーケンスの構造的および文脈的情報に基づいて、OT学習を改善するための拡張も提案されている。
提案手法の有効性は,機械翻訳,テキスト要約,テキスト生成タスクにおいて検証される。
論文 参考訳(メタデータ) (2020-10-12T19:42:25Z) - Dynamic Programming Encoding for Subword Segmentation in Neural Machine
Translation [80.38621085548013]
本稿では,文をサブワード単位にトークン化するための新しいセグメンテーションアルゴリズムである動的プログラミング(DPE)を提案する。
ターゲットセグメンテーションを見つけるために、正確なログ境界推定と正確なMAP推定を可能にする混合文字サブワード変換器を提案する。
論文 参考訳(メタデータ) (2020-05-03T05:00:50Z) - Byte Pair Encoding is Suboptimal for Language Model Pretraining [49.30780227162387]
一グラムLMトークン化とバイトペア符号化(BPE)の違いを分析する。
その結果,一グラムのLMトークン化手法は,下流タスクと2つの言語でBPEと一致し,BPEより優れることがわかった。
我々は、将来の事前訓練されたLMの開発者が、より一般的なBPEよりもユニグラムのLMメソッドを採用することを期待する。
論文 参考訳(メタデータ) (2020-04-07T21:21:06Z) - Multilingual Denoising Pre-training for Neural Machine Translation [132.66750663226287]
mBART(mBART)は、大規模モノリンガルコーパスで事前訓練されたシーケンスからシーケンスまでの自動エンコーダである。
mBARTは、完全なシーケンス・ツー・シーケンスモデルを事前訓練する最初の方法の1つである。
論文 参考訳(メタデータ) (2020-01-22T18:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。