論文の概要: Segmentation Beyond Defaults: Asymmetrical Byte Pair Encoding for Optimal Machine Translation Performance
- arxiv url: http://arxiv.org/abs/2511.03383v1
- Date: Wed, 05 Nov 2025 11:40:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.418353
- Title: Segmentation Beyond Defaults: Asymmetrical Byte Pair Encoding for Optimal Machine Translation Performance
- Title(参考訳): デフォルトを超えるセグメンテーション: 最適機械翻訳性能のための非対称バイトペア符号化
- Authors: Saumitra Yadav, Manish Shrivastava,
- Abstract要約: 本研究では,機械翻訳システムの性能を評価するために,さまざまなデータボリュームと言語ペアにわたるBPEセグメンテーションのレシピについて検討する。
ソースとターゲット言語が異なるNMOを持つ非対称なBPEを利用することで、対称的アプローチよりも結果が大幅に向上することがわかった。
- 参考スコア(独自算出の注目度): 3.3393607383304253
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing Machine Translation (MT) research often suggests a single, fixed set of hyperparameters for word segmentation models, symmetric Byte Pair Encoding (BPE), which applies the same number of merge operations (NMO) to train tokenizers for both source and target languages. However, we demonstrate that this uniform approach doesn't guarantee optimal MT performance across different language pairs and data sizes. This work investigates BPE segmentation recipes across various data volumes and language pairs to evaluate MT system performance. We find that utilizing asymmetric BPE, where the source and target languages have different NMOs, significantly improves results over the symmetric approach, especially in low-resource settings (50K, 100K, and 500K sentence pairs). Specifically, asymmetric BPE yield statistically significant ($p<0.05$) average gains of 5.32, 4.46, and 0.7 CHRF++ on English-Hindi in low-resource setups. We validated this trend across six additional language pairs (English and Telugu, Shona, Norwegian, Kyrgyz, Hausa, and Inuktitut), observing statistically significant improvement in 10 out of 12 systems compared to symmetric BPE. Our findings indicate a high NMO for the source (4K to 32K) and a low NMO for the target (0.5K to 2K) provides optimal results, particularly benefiting low-resource MT.
- Abstract(参考訳): 既存の機械翻訳(MT)研究は、単語セグメンテーションモデルのための1つの固定されたハイパーパラメータセット、対称Byte Pair Encoding(BPE)をしばしば示しており、ソース言語とターゲット言語の両方のトークンのトレーニングに同じ数のマージ操作(NMO)を適用している。
しかし、この一様アプローチは、異なる言語対とデータサイズで最適なMT性能を保証していないことを実証する。
本研究は,MTシステムの性能を評価するために,様々なデータボリュームと言語ペアにわたるBPEセグメンテーションのレシピについて検討する。
非対称なBPEは、ソース言語とターゲット言語が異なるNMOを持つため、特に低リソース設定(50K、100K、500Kの文ペア)において、対称的アプローチよりも大幅に改善される。
具体的には、非対称なBPEは、低リソース設定でイングリッシュ・ヒンディー語で5.32、4.46、0.7CHRF++の平均ゲインを統計的に有意に得る(p<0.05$)。
我々はこの傾向を6つの言語対(英語とテルグ語、ショーナ語、ノルウェー語、キルギス語、ハウサ語、イヌクティトゥット語)で検証し、対称BPEと比較して12システム中10システムにおいて統計的に有意な改善が見られた。
以上の結果から,高NMO (4Kから32K) と低NMO (0.5Kから2K) が最適であることがわかった。
関連論文リスト
- The Uneven Impact of Post-Training Quantization in Machine Translation [6.398727997282354]
資源制約のあるハードウェア上での大規模言語モデル(LLM)の展開には量子化が不可欠だが、多言語タスクに対するその意味は未解明のままである。
我々は,1.7Bから70Bパラメータの5つのLLMを用いて,55言語にわたる機械翻訳におけるPTQの大規模評価を行った。
分析の結果,4ビットの量子化は高リソース言語では翻訳品質を保ちがちであるが,低リソース言語やタイポロジーに富んだ言語では,特に2ビット設定では顕著な劣化が発生することがわかった。
論文 参考訳(メタデータ) (2025-08-28T15:22:31Z) - Machine Translation for Ge'ez Language [0.0]
Ge'ezのような低リソース言語の機械翻訳は、語彙外単語、ドメインミスマッチ、ラベル付きトレーニングデータの欠如といった課題に直面している。
言語関連性に基づく多言語ニューラルマシン翻訳(MNMT)モデルを開発した。
また,最新のLCMであるGPT-3.5を用いて,ファジィマッチングを用いた数ショット翻訳実験を行った。
論文 参考訳(メタデータ) (2023-11-24T14:55:23Z) - SelfSeg: A Self-supervised Sub-word Segmentation Method for Neural
Machine Translation [51.881877192924414]
サブワードセグメンテーションはニューラルマシン翻訳(NMT)に不可欠な前処理ステップである
本稿では,自己教師型ニューラルネットワークサブワードセグメンテーション手法であるSelfSegを紹介する。
SelfSegはトレーニング/デコードがはるかに高速で、並列コーパスの代わりに単言語辞書のみを必要とする。
論文 参考訳(メタデータ) (2023-07-31T04:38:47Z) - Improving Multilingual Neural Machine Translation System for Indic
Languages [0.0]
低リソース言語翻訳に関わる問題に対処する多言語ニューラルマシン翻訳(MNMT)システムを提案する。
提案モデルの実現には最先端のトランスフォーマーアーキテクチャを用いる。
大量のデータに対する試行は、従来のモデルよりもその優位性を明らかにしている。
論文 参考訳(メタデータ) (2022-09-27T09:51:56Z) - OneAligner: Zero-shot Cross-lingual Transfer with One Rich-Resource
Language Pair for Low-Resource Sentence Retrieval [91.76575626229824]
文検索タスク用に特別に設計されたアライメントモデルであるOneAlignerを提案する。
大規模並列多言語コーパス(OPUS-100)の全ての言語ペアで訓練すると、このモデルは最先端の結果が得られる。
実験結果から,文アライメントタスクの性能はモノリンガルおよび並列データサイズに大きく依存することがわかった。
論文 参考訳(メタデータ) (2022-05-17T19:52:42Z) - Efficient Cluster-Based k-Nearest-Neighbor Machine Translation [65.69742565855395]
k-Nearest-Neighbor Machine Translation (kNN-MT)は、最近、ニューラルネットワーク翻訳(NMT)におけるドメイン適応のための非パラメトリックソリューションとして提案されている。
論文 参考訳(メタデータ) (2022-04-13T05:46:31Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。