論文の概要: Korean-English Machine Translation with Multiple Tokenization Strategy
- arxiv url: http://arxiv.org/abs/2105.14274v1
- Date: Sat, 29 May 2021 11:31:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-05 18:04:24.567453
- Title: Korean-English Machine Translation with Multiple Tokenization Strategy
- Title(参考訳): 複数のトークン化戦略を持つ韓国英語機械翻訳
- Authors: Dojun Park, Youngjin Jang and Harksoo Kim
- Abstract要約: 文字のトークン化, 形態素のトークン化, BPEのトークン化を, 日本語のソース言語として, 英語のターゲット言語としてそれぞれ適用した。
韓国語にBPEトークン化、英語にモルデムトークン化を適用したモデルは35.73を記録し、最高のパフォーマンスを示した。
- 参考スコア(独自算出の注目度): 3.007949058551534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study was conducted to find out how tokenization methods affect the
training results of machine translation models. In this work, character
tokenization, morpheme tokenization, and BPE tokenization were applied to
Korean as the source language and English as the target language respectively,
and the comparison experiment was conducted by repeating 50,000 epochs of each
9 models using the Transformer neural network. As a result of measuring the
BLEU scores of the experimental models, the model that applied BPE tokenization
to Korean and morpheme tokenization to English recorded 35.73, showing the best
performance.
- Abstract(参考訳): 本研究では,機械翻訳モデルの学習結果にトークン化手法がどう影響するかを明らかにする。
本研究では,韓国語を原語として,英語を対象言語として,文字トークン化,形態素トークン化,BPEトークン化をそれぞれ適用し,トランスフォーマーニューラルネットワークを用いて,各9モデルの5万エポックを繰り返して比較実験を行った。
実験モデルのbleuスコアを計測した結果、bpeトークン化を韓国語に適用したモデルは35.73点を記録し、最高のパフォーマンスを示した。
関連論文リスト
- The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Tokenizer Choice For LLM Training: Negligible or Crucial? [30.33170936148845]
24個の単言語LLMと多言語LLMを学習し,トークン化選択が大規模言語モデル(LLM)の下流性能に与える影響について検討した。
トークン化ツールの選択は、ダウンストリームのパフォーマンスとトレーニングコストに大きな影響を与えます。
ヨーロッパの5言語で訓練された多言語トークン化器は,英語と比較して語彙サイズが3倍に大きくなることが示唆された。
論文 参考訳(メタデータ) (2023-10-12T22:44:19Z) - Task-Adaptive Tokenization: Enhancing Long-Form Text Generation Efficacy
in Mental Health and Beyond [66.07002187192448]
本稿では,下流タスクの特定部分に生成パイプラインを適応させる手法として,タスク適応型トークン化を提案する。
専門用語を構築するための戦略を導入し、語彙統合プロトコルを導入する。
タスク適応型トークン化アプローチでは、最大60%のトークンを使用しながら、生成パフォーマンスが大幅に向上することが分かりました。
論文 参考訳(メタデータ) (2023-10-09T00:20:59Z) - Decomposed Prompting for Machine Translation Between Related Languages
using Large Language Models [55.35106713257871]
DecoMTは、単語チャンク翻訳のシーケンスに翻訳プロセスを分解する、数発のプロンプトの新しいアプローチである。
DecoMTはBLOOMモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-22T14:52:47Z) - How Robust is Neural Machine Translation to Language Imbalance in
Multilingual Tokenizer Training? [86.48323488619629]
トークン化学習コーパスにおいて,言語間でのデータ比が変化するにつれて,翻訳性能がどう変化するかを分析する。
言語が均等にサンプリングされる場合、比較的優れたパフォーマンスが観察されることが多いが、下流のパフォーマンスは、通常予想していたよりも、言語の不均衡に対して堅牢である。
論文 参考訳(メタデータ) (2022-04-29T17:50:36Z) - Impact of Tokenization on Language Models: An Analysis for Turkish [2.4660652494309936]
我々は、OSCARコーパスのトルコ分割におけるRoBERTa事前訓練手順を用いて、トークン化器および事前訓練中規模言語モデルを訓練する。
統計的実験により, モルフォロジーレベルのトークン化器は, 事実上のトークン化器で高い性能を示した。
語彙サイズを増大させることで,デファクトトークン化よりも形態素およびワードレベルのトークン化器の性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-04-19T12:01:46Z) - A new approach to calculating BERTScore for automatic assessment of
translation quality [0.0]
本研究は,BERTScore測定値の文レベルにおける翻訳品質評価への適用性に焦点をあてる。
実験は、事前訓練された多言語BERTと、一対のモノリンガルBERTモデルを用いて行われた。
このような変換がミスマッチの防止に有効であることを実証し,マルチ言語モデルの埋め込みを用いた場合よりも,このアプローチの方が優れた結果が得られることを示した。
論文 参考訳(メタデータ) (2022-03-10T19:25:16Z) - Cross-lingual Transferring of Pre-trained Contextualized Language Models [73.97131976850424]
本稿では,PRLMのための新しい言語間モデル転送フレームワークTreLMを提案する。
シンボルの順序と言語間のシーケンス長の差に対処するため,中間的なTRILayer構造を提案する。
提案手法は,スクラッチから学習した言語モデルに対して,性能と効率の両面で,限られたデータで著しく優れることを示す。
論文 参考訳(メタデータ) (2021-07-27T06:51:13Z) - An Empirical Study of Tokenization Strategies for Various Korean NLP
Tasks [4.207877448862984]
Byte Pair PE (BPE) は事実上の標準的なトークン化手法であると考えられている。
BPEがすべての言語やタスクで最善であるかどうかはまだ不明だ。
実験結果から, 韓国語から英語への翻訳において, 形態素分割とBの併用が有効であることが示唆された。
論文 参考訳(メタデータ) (2020-10-06T07:20:41Z) - Byte Pair Encoding is Suboptimal for Language Model Pretraining [49.30780227162387]
一グラムLMトークン化とバイトペア符号化(BPE)の違いを分析する。
その結果,一グラムのLMトークン化手法は,下流タスクと2つの言語でBPEと一致し,BPEより優れることがわかった。
我々は、将来の事前訓練されたLMの開発者が、より一般的なBPEよりもユニグラムのLMメソッドを採用することを期待する。
論文 参考訳(メタデータ) (2020-04-07T21:21:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。