論文の概要: How Effective is Byte Pair Encoding for Out-Of-Vocabulary Words in
Neural Machine Translation?
- arxiv url: http://arxiv.org/abs/2208.05225v1
- Date: Wed, 10 Aug 2022 08:57:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-11 12:47:53.665228
- Title: How Effective is Byte Pair Encoding for Out-Of-Vocabulary Words in
Neural Machine Translation?
- Title(参考訳): ニューラルマシン翻訳における外語彙単語のバイトペアエンコーディングはどの程度有効か?
- Authors: Ali Araabi, Christof Monz, Vlad Niculae
- Abstract要約: 我々は,単語タイプ,セグメント数,クロスアテンション,セグメントn-gramの頻度に基づいて,OOV単語の翻訳品質を分析する。
実験の結果,重みを通したOOV単語の翻訳には注意深いBPE設定が有用であることがわかったが,OOV単語のかなりの割合は誤って翻訳されている。
- 参考スコア(独自算出の注目度): 17.300004156754966
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural Machine Translation (NMT) is an open vocabulary problem. As a result,
dealing with the words not occurring during training (a.k.a. out-of-vocabulary
(OOV) words) have long been a fundamental challenge for NMT systems. The
predominant method to tackle this problem is Byte Pair Encoding (BPE) which
splits words, including OOV words, into sub-word segments. BPE has achieved
impressive results for a wide range of translation tasks in terms of automatic
evaluation metrics. While it is often assumed that by using BPE, NMT systems
are capable of handling OOV words, the effectiveness of BPE in translating OOV
words has not been explicitly measured. In this paper, we study to what extent
BPE is successful in translating OOV words at the word-level. We analyze the
translation quality of OOV words based on word type, number of segments,
cross-attention weights, and the frequency of segment n-grams in the training
data. Our experiments show that while careful BPE settings seem to be fairly
useful in translating OOV words across datasets, a considerable percentage of
OOV words are translated incorrectly. Furthermore, we highlight the slightly
higher effectiveness of BPE in translating OOV words for special cases, such as
named-entities and when the languages involved are linguistically close to each
other.
- Abstract(参考訳): ニューラルネットワーク翻訳(NMT)はオープン語彙問題である。
その結果、訓練中に発生しない単語(オーヴ語)を扱うことは、nmtシステムにとって長年の根本的な課題であった。
この問題に対処する主要な方法はByte Pair Encoding (BPE) であり、OOVワードを含む単語をサブワードセグメントに分割する。
BPEは、自動評価指標の観点から、幅広い翻訳タスクにおいて印象的な結果を得た。
BPEを用いて、NMTシステムはOOV語を処理できると仮定されることが多いが、OOV単語の翻訳におけるBPEの有効性は明らかにされていない。
本稿では,単語レベルでのOOV単語の翻訳にBPEがどの程度成功したかを検討する。
我々は,単語の種類,セグメント数,横断重み,および訓練データ中のセグメントn-gramの頻度に基づいて,OOV単語の翻訳品質を分析する。
実験の結果, 適切なBPE設定は, データセット間でのOOV単語の翻訳に極めて有用であることがわかったが, OOV単語のかなりの割合は正しく翻訳されていない。
さらに,名義語や関連言語が言語的に近接している場合など,特殊事例のOOV単語の翻訳におけるBPEの有効性も強調した。
関連論文リスト
- Batching BPE Tokenization Merges [55.2480439325792]
BatchBPEはByte PairアルゴリズムのPython実装である。
ベーシックラップトップ上で高品質なトークンをトレーニングするために使用される。
論文 参考訳(メタデータ) (2024-08-05T09:37:21Z) - An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文 参考訳(メタデータ) (2024-03-30T15:29:49Z) - An approach for mistranslation removal from popular dataset for Indic MT
Task [5.4755933832880865]
トレーニングコーパスから誤訳を除去し,その性能と効率を評価するアルゴリズムを提案する。
実験には2つのIndic言語(IL)、すなわちHindi(HIN)とOdia(ODI)が選択される。
実験における翻訳の質は,BLEU, METEOR, RIBESなどの標準指標を用いて評価する。
論文 参考訳(メタデータ) (2024-01-12T06:37:19Z) - SelfSeg: A Self-supervised Sub-word Segmentation Method for Neural
Machine Translation [51.881877192924414]
サブワードセグメンテーションはニューラルマシン翻訳(NMT)に不可欠な前処理ステップである
本稿では,自己教師型ニューラルネットワークサブワードセグメンテーション手法であるSelfSegを紹介する。
SelfSegはトレーニング/デコードがはるかに高速で、並列コーパスの代わりに単言語辞書のみを必要とする。
論文 参考訳(メタデータ) (2023-07-31T04:38:47Z) - When do Contrastive Word Alignments Improve Many-to-many Neural Machine
Translation? [33.28706502928905]
本研究は,多対多NMTにおける単語アライメントを活用するための単語レベルのコントラスト目的を提案する。
解析により,多くのNMTにおいて,エンコーダの文検索性能は翻訳品質と高い相関関係があることが判明した。
論文 参考訳(メタデータ) (2022-04-26T09:07:51Z) - VOLT: Improving Vocabularization via Optimal Transport for Machine
Translation [22.07373011242121]
我々は情報理論的特徴とbleuスコアとの間にエキサイティングな関係を見出す。
完全かつコストのかかる試行訓練を伴わない,単純かつ効率的な語彙化ソリューションVOLTを提案する。
VOLTは英語とドイツ語の翻訳で70%の語彙サイズ縮小と0.6のBLEUゲインを達成する。
論文 参考訳(メタデータ) (2020-12-31T15:49:49Z) - Dynamic Programming Encoding for Subword Segmentation in Neural Machine
Translation [80.38621085548013]
本稿では,文をサブワード単位にトークン化するための新しいセグメンテーションアルゴリズムである動的プログラミング(DPE)を提案する。
ターゲットセグメンテーションを見つけるために、正確なログ境界推定と正確なMAP推定を可能にする混合文字サブワード変換器を提案する。
論文 参考訳(メタデータ) (2020-05-03T05:00:50Z) - Byte Pair Encoding is Suboptimal for Language Model Pretraining [49.30780227162387]
一グラムLMトークン化とバイトペア符号化(BPE)の違いを分析する。
その結果,一グラムのLMトークン化手法は,下流タスクと2つの言語でBPEと一致し,BPEより優れることがわかった。
我々は、将来の事前訓練されたLMの開発者が、より一般的なBPEよりもユニグラムのLMメソッドを採用することを期待する。
論文 参考訳(メタデータ) (2020-04-07T21:21:06Z) - Bootstrapping a Crosslingual Semantic Parser [74.99223099702157]
我々は、英語のような単一の言語で訓練された意味を、最小限のアノテーションで新しい言語や複数のドメインに適用する。
我々は、機械翻訳がトレーニングデータの適切な代用であるかどうかを問うとともに、英語、パラフレーズ、多言語事前学習モデルとの併用トレーニングを用いて、ブートストラップを調査するように拡張する。
論文 参考訳(メタデータ) (2020-04-06T12:05:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。