論文の概要: CODET: A Benchmark for Contrastive Dialectal Evaluation of Machine
Translation
- arxiv url: http://arxiv.org/abs/2305.17267v1
- Date: Fri, 26 May 2023 21:24:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 20:53:45.635285
- Title: CODET: A Benchmark for Contrastive Dialectal Evaluation of Machine
Translation
- Title(参考訳): codet: 機械翻訳の対比弁別評価のためのベンチマーク
- Authors: Md Mahfuz Ibn Alam, Sina Ahmadi, Antonios Anastasopoulos
- Abstract要約: ニューラルマシン翻訳(NMT)システムは、ソース側の言語的バリエーションを扱う場合に、限られた堅牢性を示す。
データセットは、9つの異なる言語と852の異なるバリエーションを含む、対照的な弁証法ベンチマークである。
- 参考スコア(独自算出の注目度): 33.78309539037362
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural machine translation (NMT) systems exhibit limited robustness in
handling source-side linguistic variations. Their performance tends to degrade
when faced with even slight deviations in language usage, such as different
domains or variations introduced by second-language speakers. It is intuitive
to extend this observation to encompass dialectal variations as well, but the
work allowing the community to evaluate MT systems on this dimension is
limited. To alleviate this issue, we compile and release \dataset, a
contrastive dialectal benchmark encompassing 882 different variations from nine
different languages. We also quantitatively demonstrate the challenges large MT
models face in effectively translating dialectal variants. We are releasing all
code and data.
- Abstract(参考訳): ニューラルマシン翻訳(NMT)システムは、ソース側の言語的バリエーションを扱う場合に、限られた堅牢性を示す。
これらの性能は、ドメインや第2言語話者が導入したバリエーションなど、言語使用の微妙な違いに直面すると劣化する傾向がある。
この観察を方言のバリエーションにも拡張することは直感的であるが、コミュニティがこの次元でmtシステムを評価できる作業は限られている。
この問題を緩和するために、9つの異なる言語から852の異なるバリエーションを含む対照的な方言ベンチマークである \dataset をコンパイルしてリリースする。
また,方言の変種を効果的に翻訳する上で,大規模なMTモデルが直面する課題を定量的に示す。
すべてのコードとデータをリリースしています。
関連論文リスト
- Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - Revisiting Machine Translation for Cross-lingual Classification [91.43729067874503]
この分野のほとんどの研究は、機械翻訳コンポーネントではなく多言語モデルに焦点を当てている。
より強力なMTシステムを用いて、原文のトレーニングと機械翻訳テキストの推論のミスマッチを緩和することにより、翻訳テストは以前想定していたよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-23T16:56:10Z) - Evaluating and Improving the Coreference Capabilities of Machine
Translation Models [30.60934078720647]
機械翻訳は幅広い言語能力を必要とする。
現在のエンドツーエンドモデルは、バイリンガルコーパスで一致した文を観察することで暗黙的に学習することが期待されている。
論文 参考訳(メタデータ) (2023-02-16T18:16:09Z) - Multi-VALUE: A Framework for Cross-Dialectal English NLP [49.55176102659081]
マルチディレクト (Multi-Dilect) は、50の英語方言にまたがる制御可能なルールベースの翻訳システムである。
ストレステストは、非標準方言の先行モデルに対する顕著な性能格差を示す。
私たちはチカノやインド英語のネイティブスピーカーと提携して、人気のあるCoQAタスクの新しいゴールドスタンダード版をリリースしています。
論文 参考訳(メタデータ) (2022-12-15T18:17:01Z) - DivEMT: Neural Machine Translation Post-Editing Effort Across
Typologically Diverse Languages [5.367993194110256]
DivEMTは、ニューラルネットワーク翻訳(NMT)に関する、タイプ的かつ多様なターゲット言語に対する初めての公開後研究である。
我々は、Google Translateとオープンソースの多言語モデルmBART50の2つの最先端NTTシステムの翻訳生産性への影響を評価する。
論文 参考訳(メタデータ) (2022-05-24T17:22:52Z) - Multilingual Neural Machine Translation:Can Linguistic Hierarchies Help? [29.01386302441015]
MNMT(Multilingual Neural Machine Translation)は、複数の言語間の翻訳をサポートする単一のNMTモデルを訓練する。
MNMTモデルの性能は、様々な言語から知識を伝達することで、負の転送によって翻訳性能が低下するので、訓練で使用される言語の種類に大きく依存する。
本稿では,MNMTにおける階層的知識蒸留(HKD)手法を提案する。
論文 参考訳(メタデータ) (2021-10-15T02:31:48Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z) - On the Difficulty of Translating Free-Order Case-Marking Languages [2.9434930072968584]
我々は、最先端のニューラルマシン翻訳モデル(NMT)により、自由順序のケースマーキング言語が翻訳困難であるかどうかを検討する。
ソース言語における単語順の柔軟性は、NMTの品質を非常に低下させるだけである。
中・低リソース環境では、固定順序言語の全体的なNMT品質は未整合のままである。
論文 参考訳(メタデータ) (2021-07-13T13:09:58Z) - On the Limitations of Cross-lingual Encoders as Exposed by
Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。
本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。
事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。
参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文 参考訳(メタデータ) (2020-05-03T22:10:23Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。