論文の概要: VOLT: Improving Vocabularization via Optimal Transport for Machine
Translation
- arxiv url: http://arxiv.org/abs/2012.15671v1
- Date: Thu, 31 Dec 2020 15:49:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-17 17:13:30.708546
- Title: VOLT: Improving Vocabularization via Optimal Transport for Machine
Translation
- Title(参考訳): VOLT:機械翻訳のための最適輸送による語彙化の改善
- Authors: Jingjing Xu, Hao Zhou, Chun Gan, Zaixiang Zheng, Lei Li
- Abstract要約: 我々は情報理論的特徴とbleuスコアとの間にエキサイティングな関係を見出す。
完全かつコストのかかる試行訓練を伴わない,単純かつ効率的な語彙化ソリューションVOLTを提案する。
VOLTは英語とドイツ語の翻訳で70%の語彙サイズ縮小と0.6のBLEUゲインを達成する。
- 参考スコア(独自算出の注目度): 22.07373011242121
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is well accepted that the choice of token vocabulary largely affects the
performance of machine translation. However, due to expensive trial costs, most
studies only conduct simple trials with dominant approaches (e.g BPE) and
commonly used vocabulary sizes. In this paper, we find an exciting relation
between an information-theoretic feature and BLEU scores. With this
observation, we formulate the quest of vocabularization -- finding the best
token dictionary with a proper size -- as an optimal transport problem. We then
propose VOLT, a simple and efficient vocabularization solution without the full
and costly trial training. We evaluate our approach on multiple machine
translation tasks, including WMT-14 English-German translation, TED bilingual
translation, and TED multilingual translation. Empirical results show that VOLT
beats widely-used vocabularies on diverse scenarios. For example, VOLT achieves
70% vocabulary size reduction and 0.6 BLEU gain on English-German translation.
Also, one advantage of VOLT lies in its low resource consumption. Compared to
naive BPE-search, VOLT reduces the search time from 288 GPU hours to 0.5 CPU
hours.
- Abstract(参考訳): トークン語彙の選択が機械翻訳の性能に大きく影響することは、広く受け入れられている。
しかし、高価な試用コストのため、ほとんどの研究は支配的なアプローチ(例えば、bpe)と一般的な語彙サイズでのみ単純な試用を行う。
本稿では,情報理論的特徴とBLEUスコアとのエキサイティングな関係を見出す。
この観察により、最適な輸送問題として、語彙化の探求 -- 適切な大きさの最高のトークン辞書を見つける -- が定式化される。
そこで我々は,完全かつコストのかかる試行訓練を伴わない,シンプルで効率的な語彙化ソリューションVOLTを提案する。
我々は、WMT-14英語-ドイツ語翻訳、TEDバイリンガル翻訳、TED多言語翻訳など、複数の機械翻訳タスクに対するアプローチを評価した。
実験の結果、voltは多様なシナリオで広く使われている語彙を上回っている。
例えば、VOLTは英語とドイツ語の翻訳において70%の語彙サイズ縮小と0.6のBLEUゲインを達成する。
また、VOLTの利点の1つは、リソース消費の低さである。
単純なBPE検索と比較して、VOLTは検索時間を288GPU時間から0.5CPU時間に短縮する。
関連論文リスト
- BPE Gets Picky: Efficient Vocabulary Refinement During Tokenizer Training [8.012203293561196]
Picky BPE(ピッキー・BPE)は、トークンーザのトレーニング中に語彙の洗練を行う改良型BPEアルゴリズムである。
本手法は語彙効率を向上し,未学習のトークンを排除し,テキスト圧縮を損なわない。
論文 参考訳(メタデータ) (2024-09-06T20:12:34Z) - An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文 参考訳(メタデータ) (2024-03-30T15:29:49Z) - The Best of Both Worlds: Combining Human and Machine Translations for
Multilingual Semantic Parsing with Active Learning [50.320178219081484]
人文翻訳と機械翻訳の両方の長所を生かした能動的学習手法を提案する。
理想的な発話選択は、翻訳されたデータの誤りとバイアスを著しく低減することができる。
論文 参考訳(メタデータ) (2023-05-22T05:57:47Z) - On the Off-Target Problem of Zero-Shot Multilingual Neural Machine
Translation [104.85258654917297]
識別対象言語信号の符号化に失敗すると、オフターゲットとなり、語彙距離が近くなることが判明した。
多言語語彙構築のための言語認識語彙共有(LAVS)を提案する。
我々は11言語で多言語機械翻訳ベンチマーク実験を行った。
論文 参考訳(メタデータ) (2023-05-18T12:43:31Z) - Fast Vocabulary Projection Method via Clustering for Multilingual
Machine Translation on GPU [6.1646755570223934]
本稿では,クラスタリングによる高速な語彙投影法を提案する。
提案手法はボクサブ射出工程を最大2.6倍高速化する。
また,提案手法が元のモデルからの翻訳の質を保っていることを検証するために,広範囲な人的評価を行う。
論文 参考訳(メタデータ) (2022-08-14T16:10:14Z) - How Effective is Byte Pair Encoding for Out-Of-Vocabulary Words in
Neural Machine Translation? [17.300004156754966]
我々は,単語タイプ,セグメント数,クロスアテンション,セグメントn-gramの頻度に基づいて,OOV単語の翻訳品質を分析する。
実験の結果,重みを通したOOV単語の翻訳には注意深いBPE設定が有用であることがわかったが,OOV単語のかなりの割合は誤って翻訳されている。
論文 参考訳(メタデータ) (2022-08-10T08:57:13Z) - Allocating Large Vocabulary Capacity for Cross-lingual Language Model
Pre-training [59.571632468137075]
最近の言語間言語モデルでは,語彙の容量が限られているため,多くの言語が不足していることがわかった。
本稿では,各言語の語彙能力を決定するアルゴリズムであるVoCapを提案する。
この問題に対処するために,k-NNに基づくターゲットサンプリングを提案し,コストの高いソフトマックスを高速化する。
論文 参考訳(メタデータ) (2021-09-15T14:04:16Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - Bilingual Dictionary Based Neural Machine Translation without Using
Parallel Sentences [45.99290614777277]
そこで本稿では, 並列文をベースとした機械翻訳(MT)を新たに提案する。
バイリンガル辞書を検索して翻訳する単言語話者学習能力に感化されて,MTシステムがどの程度の確率で到達できるかを確認するタスクを提案する。
論文 参考訳(メタデータ) (2020-07-06T12:05:27Z) - Knowledge Distillation for Multilingual Unsupervised Neural Machine
Translation [61.88012735215636]
unsupervised neural machine translation (UNMT) は、最近、いくつかの言語対に対して顕著な結果を得た。
UNMTは単一の言語ペア間でのみ翻訳することができ、同時に複数の言語ペアに対して翻訳結果を生成することはできない。
本稿では,1つのエンコーダと1つのデコーダを用いて13言語間を翻訳する簡単な手法を実証的に紹介する。
論文 参考訳(メタデータ) (2020-04-21T17:26:16Z) - Neural Machine Translation for Low-Resourced Indian Languages [4.726777092009554]
機械翻訳は、人間の関与なしにテキストを別の言語に変換する効果的な手法である。
本稿では,NMTを英語・タミル語・英語・マラヤラム語という,最も形態学的に豊かな2つの言語に適用した。
我々は,BPE(Byte-Pair-Encoded)とMultiBPE(MultiBPE)を併用したマルチヘッド自己アテンション(Multihead self-attention)を用いた新しいNMTモデルを提案し,効率的な翻訳システムを開発した。
論文 参考訳(メタデータ) (2020-04-19T17:29:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。