論文の概要: Dynamic Programming Encoding for Subword Segmentation in Neural Machine
Translation
- arxiv url: http://arxiv.org/abs/2005.06606v2
- Date: Sat, 1 Aug 2020 09:30:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 06:15:09.898015
- Title: Dynamic Programming Encoding for Subword Segmentation in Neural Machine
Translation
- Title(参考訳): ニューラルネットワーク翻訳におけるサブワードセグメンテーションのための動的プログラミング符号化
- Authors: Xuanli He, Gholamreza Haffari, Mohammad Norouzi
- Abstract要約: 本稿では,文をサブワード単位にトークン化するための新しいセグメンテーションアルゴリズムである動的プログラミング(DPE)を提案する。
ターゲットセグメンテーションを見つけるために、正確なログ境界推定と正確なMAP推定を可能にする混合文字サブワード変換器を提案する。
- 参考スコア(独自算出の注目度): 80.38621085548013
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces Dynamic Programming Encoding (DPE), a new segmentation
algorithm for tokenizing sentences into subword units. We view the subword
segmentation of output sentences as a latent variable that should be
marginalized out for learning and inference. A mixed character-subword
transformer is proposed, which enables exact log marginal likelihood estimation
and exact MAP inference to find target segmentations with maximum posterior
probability. DPE uses a lightweight mixed character-subword transformer as a
means of pre-processing parallel data to segment output sentences using dynamic
programming. Empirical results on machine translation suggest that DPE is
effective for segmenting output sentences and can be combined with BPE dropout
for stochastic segmentation of source sentences. DPE achieves an average
improvement of 0.9 BLEU over BPE (Sennrich et al., 2016) and an average
improvement of 0.55 BLEU over BPE dropout (Provilkov et al., 2019) on several
WMT datasets including English <=> (German, Romanian, Estonian, Finnish,
Hungarian).
- Abstract(参考訳): 本稿では,文をサブワード単位にトークン化する新しいセグメンテーションアルゴリズムである動的プログラミング符号化(DPE)を紹介する。
学習や推論のために限界化されるべき潜在変数として,出力文のサブワードセグメンテーションを考察する。
高精度なログ辺縁確率推定と正確な地図推定を可能にし,最大後方確率のターゲットセグメンテーションを探索する混合文字・サブワードトランスを提案する。
DPEは、動的プログラミングを用いて出力文を分割する並列データを前処理する手段として、軽量な混合文字サブワード変換器を使用している。
機械翻訳における実験結果から、DPEは出力文のセグメンテーションに有効であり、ソース文の確率的セグメンテーションにBPEドロップアウトと組み合わせることができることが示唆された。
DPEは、BPEよりも0.9BLEUの平均的な改善(Sennrich et al., 2016)とBPEよりも0.55BLEUの平均的な改善(Provilkov et al., 2019)を、英語<=>(ドイツ語、ルーマニア語、エストニア語、フィンランド語、ハンガリー語)を含むいくつかのWMTデータセットで達成している。
関連論文リスト
- Adaptive BPE Tokenization for Enhanced Vocabulary Adaptation in Finetuning Pretrained Language Models [26.442558912559658]
Byte-Pair を用いた語彙適応手法の基本的な限界を示す。
(BPE)エキスパートドメインへの微調整事前学習言語モデル(PLM)のトークン化方式。
本稿では,BPEのトークン化フェーズが変更され,文字レベルでのトークン化の前に,付加(ターゲット)語彙上で最も長い文字列マッチングが実行されるAdaptBPEを提案する。
論文 参考訳(メタデータ) (2024-10-04T09:24:55Z) - SelfSeg: A Self-supervised Sub-word Segmentation Method for Neural
Machine Translation [51.881877192924414]
サブワードセグメンテーションはニューラルマシン翻訳(NMT)に不可欠な前処理ステップである
本稿では,自己教師型ニューラルネットワークサブワードセグメンテーション手法であるSelfSegを紹介する。
SelfSegはトレーニング/デコードがはるかに高速で、並列コーパスの代わりに単言語辞書のみを必要とする。
論文 参考訳(メタデータ) (2023-07-31T04:38:47Z) - Where's the Point? Self-Supervised Multilingual Punctuation-Agnostic
Sentence Segmentation [65.6736056006381]
85言語を対象とした多言語句読解文セグメンテーション法を提案する。
提案手法は,従来の最良文分割ツールを平均6.1%F1ポイントで上回っている。
MTモデルの訓練に使用するセグメンテーションと文のセグメンテーションを一致させる手法を用いて,平均2.3BLEU点の改善を実現する。
論文 参考訳(メタデータ) (2023-05-30T09:49:42Z) - Subword Segmental Machine Translation: Unifying Segmentation and Target
Sentence Generation [7.252933737829635]
サブワードセグメント機械翻訳(SSMT)は、目標文を生成するために共同学習しながら、ターゲット文をセグメント化することを学ぶ。
6つの翻訳方向にわたる実験により、SSMTは形態学的にリッチな凝集言語に対するchrFスコアを改善することが示された。
論文 参考訳(メタデータ) (2023-05-11T17:44:29Z) - Non-Parametric Domain Adaptation for End-to-End Speech Translation [72.37869362559212]
E2E-ST(End-to-End Speech Translation)は、エラー伝播の低減、レイテンシの低減、パラメータの削減などにより注目されている。
本稿では,E2E-STシステムのドメイン適応を実現するために,ドメイン固有のテキスト翻訳コーパスを活用する新しい非パラメトリック手法を提案する。
論文 参考訳(メタデータ) (2022-05-23T11:41:02Z) - LCP-dropout: Compression-based Multiple Subword Segmentation for Neural
Machine Translation [5.505045114759599]
データ圧縮アルゴリズムに基づくサブワードセグメンテーションのためのシンプルで効果的な前処理手法を提案する。
BPE/BPEドロップアウトは従来の手法と比較して最も高速で効果的な手法の1つである。
BPE/BPE/ドロップアウトを改善した複数単語セグメンテーションのためのLCP-dropoutを提案する。
論文 参考訳(メタデータ) (2022-02-28T07:49:07Z) - Syntax-aware Data Augmentation for Neural Machine Translation [76.99198797021454]
本稿では,ニューラルマシン翻訳のための新しいデータ拡張戦略を提案する。
文中の役割を考慮し,単語選択のための文特異的確率を設定した。
提案手法はWMT14の英語-ドイツ語データセットとIWSLT14のドイツ語-英語データセットを用いて評価する。
論文 参考訳(メタデータ) (2020-04-29T13:45:30Z) - Byte Pair Encoding is Suboptimal for Language Model Pretraining [49.30780227162387]
一グラムLMトークン化とバイトペア符号化(BPE)の違いを分析する。
その結果,一グラムのLMトークン化手法は,下流タスクと2つの言語でBPEと一致し,BPEより優れることがわかった。
我々は、将来の事前訓練されたLMの開発者が、より一般的なBPEよりもユニグラムのLMメソッドを採用することを期待する。
論文 参考訳(メタデータ) (2020-04-07T21:21:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。