論文の概要: Decoding and Diversity in Machine Translation
- arxiv url: http://arxiv.org/abs/2011.13477v1
- Date: Thu, 26 Nov 2020 21:09:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 08:20:58.883268
- Title: Decoding and Diversity in Machine Translation
- Title(参考訳): 機械翻訳における復号化と多様性
- Authors: Nicholas Roberts, Davis Liang, Graham Neubig, Zachary C. Lipton
- Abstract要約: NMTが楽しむBLEUスコアに対して支払う費用の多様性の違いを特徴付ける。
本研究は,ジェンダー代名詞を翻訳する際に,検索が既知バイアスの正解源となることを示唆する。
- 参考スコア(独自算出の注目度): 90.33636694717954
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural Machine Translation (NMT) systems are typically evaluated using
automated metrics that assess the agreement between generated translations and
ground truth candidates. To improve systems with respect to these metrics, NLP
researchers employ a variety of heuristic techniques, including searching for
the conditional mode (vs. sampling) and incorporating various training
heuristics (e.g., label smoothing). While search strategies significantly
improve BLEU score, they yield deterministic outputs that lack the diversity of
human translations. Moreover, search tends to bias the distribution of
translated gender pronouns. This makes human-level BLEU a misleading benchmark
in that modern MT systems cannot approach human-level BLEU while simultaneously
maintaining human-level translation diversity. In this paper, we characterize
distributional differences between generated and real translations, examining
the cost in diversity paid for the BLEU scores enjoyed by NMT. Moreover, our
study implicates search as a salient source of known bias when translating
gender pronouns.
- Abstract(参考訳): ニューラルネットワーク翻訳(NMT)システムは通常、生成された翻訳と基底真理候補との一致を評価する自動メトリクスを使用して評価される。
これらの指標に関してシステムを改善するため、NLP研究者は条件付きモード(vs.サンプリング)の探索や様々なトレーニングヒューリスティック(ラベルの平滑化など)の導入など、様々なヒューリスティック技術を採用している。
検索戦略はBLEUスコアを大幅に改善するが、人間の翻訳の多様性に欠ける決定論的アウトプットが得られる。
さらに、検索は、翻訳された性別代名詞の分布に偏りがある。
これにより、人間レベルのBLEUは、人間レベルの翻訳多様性を同時に維持しながら、現代のMTシステムは人間レベルのBLEUに近づかないという誤解を招くベンチマークとなる。
本稿では,NMT によるBLEU の楽譜に対する多様性のコストについて検討し,生成翻訳と実翻訳の分布差を特徴付ける。
さらに, ジェンダー代名詞の翻訳において, 既知のバイアスの有意な源として検索が関与している。
関連論文リスト
- BiVert: Bidirectional Vocabulary Evaluation using Relations for Machine
Translation [4.651581292181871]
本稿では,テキストから翻訳の感覚距離を評価するための双方向意味に基づく評価手法を提案する。
このアプローチでは、包括的な多言語百科事典BabelNetを用いる。
Factual analysis is a strong correlation between the average evaluations generated by our method and the human evaluations across various machine translation system for English- German language pair。
論文 参考訳(メタデータ) (2024-03-06T08:02:21Z) - BLEURT Has Universal Translations: An Analysis of Automatic Metrics by
Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。
BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。
詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文 参考訳(メタデータ) (2023-07-06T16:59:30Z) - Revisiting Machine Translation for Cross-lingual Classification [91.43729067874503]
この分野のほとんどの研究は、機械翻訳コンポーネントではなく多言語モデルに焦点を当てている。
より強力なMTシステムを用いて、原文のトレーニングと機械翻訳テキストの推論のミスマッチを緩和することにより、翻訳テストは以前想定していたよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-23T16:56:10Z) - Discourse Centric Evaluation of Machine Translation with a Densely
Annotated Parallel Corpus [82.07304301996562]
本稿では,江らが導入した大規模並列コーパスBWBに基づいて,リッチな談話アノテーションを用いた新しいデータセットを提案する。
ソース言語とターゲット言語の談話構造と類似点と相違点について検討する。
我々はMT出力が人間の翻訳と基本的に異なることを発見した。
論文 参考訳(メタデータ) (2023-05-18T17:36:41Z) - HilMeMe: A Human-in-the-Loop Machine Translation Evaluation Metric
Looking into Multi-Word Expressions [6.85316573653194]
言語的に動機づけたHuman-in-the-loop評価尺度の設計と実装について,慣用的および用語的マルチワード表現(MWEs)について述べる。
MWEは、MWEを正確で意味のある等価な方法で認識・翻訳する能力を調べることで、異なるMTシステムを区別する主要な要因の1つである。
論文 参考訳(メタデータ) (2022-11-09T21:15:40Z) - Exploring Diversity in Back Translation for Low-Resource Machine
Translation [85.03257601325183]
バックトランスフォーメーションは、ニューラルマシントランスフォーメーションシステムの性能を改善するために最も広く使われている手法の1つである。
近年の研究では、生成された翻訳の「多様性」を増大させることにより、この手法の有効性を高めることを目指している。
この研究は、トレーニングデータの多様性を理解し、それを語彙的多様性と構文的多様性に分割する、より微妙なフレームワークを推し進めている。
論文 参考訳(メタデータ) (2022-06-01T15:21:16Z) - Sentiment-based Candidate Selection for NMT [2.580271290008534]
本稿では,機械翻訳(mt)候補選択プロセスに自動感情スコアを組み込むデコーダ側手法を提案する。
我々は、英語とスペイン語の感情分類器を訓練し、ビームサーチによるベースラインMTモデルによって生成されたn-best候補を用いて、原文の感情スコアと翻訳の絶対差を最小化する候補を選択する。
人間の評価結果から,パイプライン上に構築されたオープンソースのMTモデルと比較して,ベースライン翻訳は口語的,感情重大なソーステキストよりも正確であることが示唆された。
論文 参考訳(メタデータ) (2021-04-10T19:01:52Z) - Machine Translationese: Effects of Algorithmic Bias on Linguistic
Complexity in Machine Translation [2.0625936401496237]
我々は、機械翻訳におけるジェンダーの研究を超えて、偏見の増幅がより広い意味で言語に与える影響を調査する。
我々は、異なるデータ駆動MTパラダイムによって生成された翻訳の言語的豊かさ(語彙的および形態学的レベルで)を評価する。
論文 参考訳(メタデータ) (2021-01-30T18:49:11Z) - On the Limitations of Cross-lingual Encoders as Exposed by
Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。
本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。
事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。
参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文 参考訳(メタデータ) (2020-05-03T22:10:23Z) - BLEU might be Guilty but References are not Innocent [34.817010352734]
我々は,参照を収集し,その価値を自動評価で比較するための異なる手法について検討する。
典型的参照が多様性に乏しく、翻訳言語を中心にして、パラフレーズ化タスクを開発することに動機づけられた。
提案手法は,WMT 2019英語をドイツ語に投稿するだけでなく,バックトランスレーションやAPE拡張MT出力に対しても高い相関性を示す。
論文 参考訳(メタデータ) (2020-04-13T16:49:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。