論文の概要: Are Character-level Translations Worth the Wait? An Extensive Comparison
of Character- and Subword-level Models for Machine Translation
- arxiv url: http://arxiv.org/abs/2302.14220v1
- Date: Tue, 28 Feb 2023 00:50:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-01 18:31:54.458610
- Title: Are Character-level Translations Worth the Wait? An Extensive Comparison
of Character- and Subword-level Models for Machine Translation
- Title(参考訳): 文字レベルの翻訳は待つ価値があるか?
機械翻訳における文字レベルとサブワードレベルモデルの比較
- Authors: Lukas Edman, Antonio Toral, Gertjan van Noord
- Abstract要約: 事前訓練された大文字レベルの言語モデルは、最近再活性化され、様々なNLPタスクにまたがるサブワードモデルと競合することが示されている。
本研究は,ニューラルマシン翻訳(NMT)における複数の言語間の広範な比較と,最先端のキャラクタレベルおよびサブワードレベルの事前訓練モデルの実験条件を実行する。
これは、前者が翻訳に有効であるだけでなく、特に訓練データに制限がある場合において、しばしばサブワードモデルよりも優れていることを示している。
- 参考スコア(独自算出の注目度): 3.734153902687548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained large character-level language models have been recently
revitalized and shown to be competitive with subword models across a range of
NLP tasks. However, there has not been any research showing their effectiveness
in neural machine translation (NMT). This work performs an extensive comparison
across multiple languages and experimental conditions of state-of-the-art
character- and subword-level pre-trained models (ByT5 and mT5, respectively) on
NMT, and shows that the former not only are effective in translation, but
frequently outperform subword models, particularly in cases where training data
is limited. The only drawback of character models appears to be their
inefficiency (at least 4 times slower to train and for inference). Further
analysis indicates that character models are capable of implicitly translating
on the word or subword level, thereby nullifying a major potential weakness of
operating on the character level.
- Abstract(参考訳): 事前訓練された大きな文字レベルの言語モデルは最近活性化され、様々なnlpタスクでサブワードモデルと競合することが示されている。
しかしながら、ニューラルマシン翻訳(NMT)の有効性を示す研究は行われていない。
本研究は,NMTにおける複数の言語間の比較と,最先端の文字レベルとサブワードレベルの事前訓練モデル(ByT5とmT5)の実験条件により,前者が翻訳に有効であるだけでなく,特に訓練データに制限がある場合において,単語モデルよりも優れていることを示す。
キャラクタモデルの唯一の欠点は、その非効率性(少なくとも列車や推論の4倍遅い)である。
さらに分析すると、キャラクタモデルは単語またはサブワードレベルで暗黙的に翻訳できるため、キャラクタレベルでの操作の潜在的な弱点を無効にすることができる。
関連論文リスト
- Ensembling Finetuned Language Models for Text Classification [55.15643209328513]
ファインタニング(英: Finetuning)は、特定のタスクに事前訓練されたモデルを適用するために、様々なコミュニティで一般的なプラクティスである。
ニューラルネットワークのアンサンブルは、通常、パフォーマンスを高め、信頼性の高い不確実性推定を提供するために使用される。
6つのデータセット上の5つの大きめのモデルから予測されたメタデータセットを提示し、異なるアンサンブル戦略の結果を報告する。
論文 参考訳(メタデータ) (2024-10-25T09:15:54Z) - A Text-to-Text Model for Multilingual Offensive Language Identification [19.23565690468299]
本研究では,テキスト・トゥ・テキスト・トランスフォーマを用いた攻撃的言語識別のためのエンコーダ・デコーダアーキテクチャを用いた最初の事前学習モデルを提案する(T5)。
我々の事前学習されたT5モデルは、複数の英語ベンチマークにおいて、fBERTやHateBERTのような攻撃的言語検出のために微調整された他のトランスフォーマーベースモデルよりも優れている。
同様のアプローチで、mT5を用いて攻撃的言語識別のための最初の多言語事前訓練モデルを訓練する。
論文 参考訳(メタデータ) (2023-12-06T09:37:27Z) - Machine Translation for Ge'ez Language [0.0]
Ge'ezのような低リソース言語の機械翻訳は、語彙外単語、ドメインミスマッチ、ラベル付きトレーニングデータの欠如といった課題に直面している。
言語関連性に基づく多言語ニューラルマシン翻訳(MNMT)モデルを開発した。
また,最新のLCMであるGPT-3.5を用いて,ファジィマッチングを用いた数ショット翻訳実験を行った。
論文 参考訳(メタデータ) (2023-11-24T14:55:23Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - Evaluating Byte and Wordpiece Level Models for Massively Multilingual
Semantic Parsing [3.431659287330068]
バイトレベル(ByT5)とワードピースベース(mT5)をMASSIVE多言語意味解析データセットの51言語におけるシーケンスモデルと比較する。
すべての言語からのゴールドデータに基づいてトレーニングされたモデルに対して、正確なマッチング精度のギャップを5ポイントに縮めることができます。
論文 参考訳(メタデータ) (2022-12-14T13:48:32Z) - Evaluation of Transfer Learning for Polish with a Text-to-Text Model [54.81823151748415]
ポーランド語におけるテキスト・テキスト・モデルの質を評価するための新しいベンチマークを導入する。
KLEJベンチマークはテキスト・トゥ・テキスト、en-pl翻訳、要約、質問応答に適応している。
本稿では,ポーランド語のための汎用テキスト・テキスト・ツー・テキスト・モデルであるplT5について述べる。
論文 参考訳(メタデータ) (2022-05-18T09:17:14Z) - Impact of Tokenization on Language Models: An Analysis for Turkish [2.4660652494309936]
我々は、OSCARコーパスのトルコ分割におけるRoBERTa事前訓練手順を用いて、トークン化器および事前訓練中規模言語モデルを訓練する。
統計的実験により, モルフォロジーレベルのトークン化器は, 事実上のトークン化器で高い性能を示した。
語彙サイズを増大させることで,デファクトトークン化よりも形態素およびワードレベルのトークン化器の性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-04-19T12:01:46Z) - Few-shot learning through contextual data augmentation [74.20290390065475]
機械翻訳モデルは、時間とともに性能を維持するために新しいデータに適応する必要がある。
一つの例から5つの例への適応が可能であることを示す。
本モデルでは,平均313個の並列例でトレーニングした基準システムよりも精度がよいことを示す。
論文 参考訳(メタデータ) (2021-03-31T09:05:43Z) - mT5: A massively multilingual pre-trained text-to-text transformer [60.0210636815514]
The Text-to-Text Transfer Transformer (T5) は、統一されたテキスト・トゥ・テキストフォーマットとスケールを利用して、英語のNLPタスクで最先端の結果を得る。
101言語をカバーする新しいCommon Crawlベースのデータセットで事前トレーニングを行ったマルチ言語版T5であるmT5を紹介する。
論文 参考訳(メタデータ) (2020-10-22T17:58:14Z) - Improving Text Generation with Student-Forcing Optimal Transport [122.11881937642401]
トレーニングモードとテストモードで生成されたシーケンスに最適なトランスポート(OT)を提案する。
テキストシーケンスの構造的および文脈的情報に基づいて、OT学習を改善するための拡張も提案されている。
提案手法の有効性は,機械翻訳,テキスト要約,テキスト生成タスクにおいて検証される。
論文 参考訳(メタデータ) (2020-10-12T19:42:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。