論文の概要: Why don't people use character-level machine translation?
- arxiv url: http://arxiv.org/abs/2110.08191v1
- Date: Fri, 15 Oct 2021 16:43:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-18 13:42:01.492098
- Title: Why don't people use character-level machine translation?
- Title(参考訳): 文字レベルの機械翻訳はなぜ使わないのか?
- Authors: Jind\v{r}ich Libovick\'y, Helmut Schmid, Alexander Fraser
- Abstract要約: 文字レベルシステムがサブワードシステムに匹敵する証拠があるにもかかわらず、機械翻訳競争において競合する設定ではほとんど使われない。
文字レベルのMTシステムは、しばしばモチベーションが高いにもかかわらず、ドメインの堅牢性も、モルフォロジーの一般化も良くない。
- 参考スコア(独自算出の注目度): 69.53730499849023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a literature and empirical survey that critically assesses the
state of the art in character-level modeling for machine translation (MT).
Despite evidence in the literature that character-level systems are comparable
with subword systems, they are virtually never used in competitive setups in
WMT competitions. We empirically show that even with recent modeling
innovations in character-level natural language processing, character-level MT
systems still struggle to match their subword-based counterparts both in terms
of translation quality and training and inference speed. Character-level MT
systems show neither better domain robustness, nor better morphological
generalization, despite being often so motivated. On the other hand, they tend
to be more robust towards source side noise and the translation quality does
not degrade with increasing beam size at decoding time.
- Abstract(参考訳): 本稿では,機械翻訳のための文字レベルモデリング(mt)における技術の現状を批判的に評価する文献と経験的調査を行う。
文字レベルシステムがサブワードシステムに匹敵する証拠があるにもかかわらず、WMTコンペティションの競争で事実上使用されることはない。
文字レベルの自然言語処理における最近のモデリングの革新にもかかわらず、文字レベルのMTシステムは、翻訳品質とトレーニング、推論速度の両面において、サブワードベースのシステムとのマッチングに苦戦していることを実証的に示す。
文字レベルのmtシステムは、モチベーションが高いにもかかわらず、ドメインのロバスト性や形態素の一般化性は示さない。
一方、ソース側ノイズに対してより堅牢である傾向があり、復号時のビームサイズの増加とともに翻訳品質は劣化しない。
関連論文リスト
- On Search Strategies for Document-Level Neural Machine Translation [51.359400776242786]
文書レベルのニューラルネットワーク変換(NMT)モデルは、ドキュメント全体にわたってより一貫性のある出力を生成する。
そこで本研究では,デコードにおける文脈認識翻訳モデルをどのように活用するか,という質問に答えることを目的としている。
論文 参考訳(メタデータ) (2023-06-08T11:30:43Z) - Revisiting Machine Translation for Cross-lingual Classification [91.43729067874503]
この分野のほとんどの研究は、機械翻訳コンポーネントではなく多言語モデルに焦点を当てている。
より強力なMTシステムを用いて、原文のトレーニングと機械翻訳テキストの推論のミスマッチを緩和することにより、翻訳テストは以前想定していたよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-23T16:56:10Z) - Discourse Centric Evaluation of Machine Translation with a Densely
Annotated Parallel Corpus [82.07304301996562]
本稿では,江らが導入した大規模並列コーパスBWBに基づいて,リッチな談話アノテーションを用いた新しいデータセットを提案する。
ソース言語とターゲット言語の談話構造と類似点と相違点について検討する。
我々はMT出力が人間の翻訳と基本的に異なることを発見した。
論文 参考訳(メタデータ) (2023-05-18T17:36:41Z) - Adaptive Machine Translation with Large Language Models [7.803471587734353]
実時間適応型機械翻訳を改善するために,テキスト内学習をいかに活用できるかを検討する。
英語-アラビア語(EN-AR)、英語-中国語(EN-ZH)、英語-フランス語(EN-FR)、英語-キニャルワンダ(EN-RW)、英語-スペイン語(EN-ES)の5つの多種多様な言語対の実験を行った。
論文 参考訳(メタデータ) (2023-01-30T21:17:15Z) - How sensitive are translation systems to extra contexts? Mitigating
gender bias in Neural Machine Translation models through relevant contexts [11.684346035745975]
ますます多くの研究が、ニューラルマシン翻訳モデルがトレーニング中に導入する固有の性バイアスを強調している。
そこで本研究では,これらのモデルに対して,対象とした指示をコンテキストとして,推論中にバイアスを修正するように指示できるかどうかを検討する。
3つの一般的なテストスイート間で、翻訳における性別バイアスの低減に関する大幅な改善を観察する。
論文 参考訳(メタデータ) (2022-05-22T06:31:54Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z) - Can Your Context-Aware MT System Pass the DiP Benchmark Tests? :
Evaluation Benchmarks for Discourse Phenomena in Machine Translation [7.993547048820065]
本稿では,4つの主要な談話現象の追跡と改善を目的としたMTベンチマークデータセットについて紹介する。
驚くべきことに、既存の文脈認識モデルでは、言語や現象間の会話関連翻訳が一貫して改善されない。
論文 参考訳(メタデータ) (2020-04-30T07:15:36Z) - Towards Reasonably-Sized Character-Level Transformer NMT by Finetuning
Subword Systems [78.80826533405019]
トークンセグメンテーションを必要とせずに文字レベルで機能するニューラルネットワーク翻訳モデルが得られることを示す。
我々の研究は、非常に大きくないキャラクタベースモデルを訓練しやすく、高性能化するための重要な一歩である。
論文 参考訳(メタデータ) (2020-04-29T15:56:02Z) - When Does Unsupervised Machine Translation Work? [23.690875724726908]
我々は、異種言語ペア、異種ドメイン、多様なデータセット、真の低リソース言語を用いて、教師なし機械翻訳(MT)の実証評価を行う。
ソースコーパスとターゲットコーパスが異なるドメインから来た場合,性能は急速に低下することがわかった。
さらに、ソース言語とターゲット言語が異なるスクリプトを使用すると、教師なしMT性能が低下し、信頼性の高い低リソース言語ペアにおいて非常に低いパフォーマンスが観察される。
論文 参考訳(メタデータ) (2020-04-12T00:57:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。