論文の概要: Are Character-level Translations Worth the Wait? Comparing Character-
and Subword-level Models for Machine Translation
- arxiv url: http://arxiv.org/abs/2302.14220v2
- Date: Thu, 11 May 2023 14:00:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-12 18:01:35.302551
- Title: Are Character-level Translations Worth the Wait? Comparing Character-
and Subword-level Models for Machine Translation
- Title(参考訳): 文字レベルの翻訳は待つ価値があるか?
機械翻訳における文字・サブワードレベルのモデルの比較
- Authors: Lukas Edman, Gabriele Sarti, Antonio Toral, Gertjan van Noord, Arianna
Bisazza
- Abstract要約: 事前訓練された文字レベルの言語モデルは、最近、様々なNLPタスクで人気のあるサブワードモデルと競合することが示されている。
この研究は、複数の言語にまたがる広範な比較と、最先端のキャラクタとサブワードレベルの事前学習モデルの実験的条件を実行する。
本稿では, 文字モデルの性能向上が, 文法的に類似した単語や稀な単語の翻訳にどのように反映されているかを示す。
- 参考スコア(独自算出の注目度): 5.648790815017436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained character-level language models were recently shown to be
competitive with popular subword models across a range of NLP tasks. However,
there has been little research on their effectiveness for neural machine
translation (NMT). This work performs an extensive comparison across multiple
languages and experimental conditions of state-of-the-art character- and
subword-level pre-trained models (ByT5 and mT5, respectively) on NMT, showing
the effectiveness of character-level modeling in translation, particularly in
cases where training data is limited. In our analysis, we show how character
models' performance gains are reflected in better translations of
orthographically similar words and rare words. While evaluating the importance
of source texts in driving model predictions, we highlight ByT5 word-level
patterns suggesting an ability to modulate word and character-level information
during the translation, providing insights into a potential weakness of
character-level modeling. We conclude by assessing the efficiency tradeoff of
character models, suggesting their usage in non-time-critical scenarios to
boost translation quality.
- Abstract(参考訳): 事前訓練された文字レベルの言語モデルは、最近、様々なNLPタスクで人気のあるサブワードモデルと競合することが示されている。
しかし、ニューラルネットワーク翻訳(NMT)の有効性についてはほとんど研究されていない。
本研究は,翻訳における文字レベルのモデリングの有効性,特に訓練データに制限がある場合において,複数の言語と,NMT上での最先端文字レベルの事前訓練モデル(ByT5とmT5)の実験的条件を比較した。
本研究では,文字モデルの性能向上が,正書法的に類似した単語や希少な単語の翻訳に反映されることを示す。
モデル予測におけるソーステキストの重要性を評価しながら、翻訳中に単語や文字レベルの情報を変調する能力を示すbyt5の単語レベルのパターンに注目し、文字レベルのモデリングの潜在的な弱点に関する洞察を提供する。
キャラクタモデルの効率トレードオフを評価し,翻訳品質を高めるための非時間クリティカルなシナリオでの利用を提案する。
関連論文リスト
- Ensembling Finetuned Language Models for Text Classification [55.15643209328513]
ファインタニング(英: Finetuning)は、特定のタスクに事前訓練されたモデルを適用するために、様々なコミュニティで一般的なプラクティスである。
ニューラルネットワークのアンサンブルは、通常、パフォーマンスを高め、信頼性の高い不確実性推定を提供するために使用される。
6つのデータセット上の5つの大きめのモデルから予測されたメタデータセットを提示し、異なるアンサンブル戦略の結果を報告する。
論文 参考訳(メタデータ) (2024-10-25T09:15:54Z) - A Text-to-Text Model for Multilingual Offensive Language Identification [19.23565690468299]
本研究では,テキスト・トゥ・テキスト・トランスフォーマを用いた攻撃的言語識別のためのエンコーダ・デコーダアーキテクチャを用いた最初の事前学習モデルを提案する(T5)。
我々の事前学習されたT5モデルは、複数の英語ベンチマークにおいて、fBERTやHateBERTのような攻撃的言語検出のために微調整された他のトランスフォーマーベースモデルよりも優れている。
同様のアプローチで、mT5を用いて攻撃的言語識別のための最初の多言語事前訓練モデルを訓練する。
論文 参考訳(メタデータ) (2023-12-06T09:37:27Z) - Machine Translation for Ge'ez Language [0.0]
Ge'ezのような低リソース言語の機械翻訳は、語彙外単語、ドメインミスマッチ、ラベル付きトレーニングデータの欠如といった課題に直面している。
言語関連性に基づく多言語ニューラルマシン翻訳(MNMT)モデルを開発した。
また,最新のLCMであるGPT-3.5を用いて,ファジィマッチングを用いた数ショット翻訳実験を行った。
論文 参考訳(メタデータ) (2023-11-24T14:55:23Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - Evaluating Byte and Wordpiece Level Models for Massively Multilingual
Semantic Parsing [3.431659287330068]
バイトレベル(ByT5)とワードピースベース(mT5)をMASSIVE多言語意味解析データセットの51言語におけるシーケンスモデルと比較する。
すべての言語からのゴールドデータに基づいてトレーニングされたモデルに対して、正確なマッチング精度のギャップを5ポイントに縮めることができます。
論文 参考訳(メタデータ) (2022-12-14T13:48:32Z) - Evaluation of Transfer Learning for Polish with a Text-to-Text Model [54.81823151748415]
ポーランド語におけるテキスト・テキスト・モデルの質を評価するための新しいベンチマークを導入する。
KLEJベンチマークはテキスト・トゥ・テキスト、en-pl翻訳、要約、質問応答に適応している。
本稿では,ポーランド語のための汎用テキスト・テキスト・ツー・テキスト・モデルであるplT5について述べる。
論文 参考訳(メタデータ) (2022-05-18T09:17:14Z) - Impact of Tokenization on Language Models: An Analysis for Turkish [2.4660652494309936]
我々は、OSCARコーパスのトルコ分割におけるRoBERTa事前訓練手順を用いて、トークン化器および事前訓練中規模言語モデルを訓練する。
統計的実験により, モルフォロジーレベルのトークン化器は, 事実上のトークン化器で高い性能を示した。
語彙サイズを増大させることで,デファクトトークン化よりも形態素およびワードレベルのトークン化器の性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-04-19T12:01:46Z) - Few-shot learning through contextual data augmentation [74.20290390065475]
機械翻訳モデルは、時間とともに性能を維持するために新しいデータに適応する必要がある。
一つの例から5つの例への適応が可能であることを示す。
本モデルでは,平均313個の並列例でトレーニングした基準システムよりも精度がよいことを示す。
論文 参考訳(メタデータ) (2021-03-31T09:05:43Z) - mT5: A massively multilingual pre-trained text-to-text transformer [60.0210636815514]
The Text-to-Text Transfer Transformer (T5) は、統一されたテキスト・トゥ・テキストフォーマットとスケールを利用して、英語のNLPタスクで最先端の結果を得る。
101言語をカバーする新しいCommon Crawlベースのデータセットで事前トレーニングを行ったマルチ言語版T5であるmT5を紹介する。
論文 参考訳(メタデータ) (2020-10-22T17:58:14Z) - Improving Text Generation with Student-Forcing Optimal Transport [122.11881937642401]
トレーニングモードとテストモードで生成されたシーケンスに最適なトランスポート(OT)を提案する。
テキストシーケンスの構造的および文脈的情報に基づいて、OT学習を改善するための拡張も提案されている。
提案手法の有効性は,機械翻訳,テキスト要約,テキスト生成タスクにおいて検証される。
論文 参考訳(メタデータ) (2020-10-12T19:42:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。