論文の概要: When Does Unsupervised Machine Translation Work?
- arxiv url: http://arxiv.org/abs/2004.05516v3
- Date: Thu, 19 Nov 2020 02:48:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 05:22:31.173114
- Title: When Does Unsupervised Machine Translation Work?
- Title(参考訳): 教師なし機械翻訳はいつ動作するのか?
- Authors: Kelly Marchisio, Kevin Duh, and Philipp Koehn
- Abstract要約: 我々は、異種言語ペア、異種ドメイン、多様なデータセット、真の低リソース言語を用いて、教師なし機械翻訳(MT)の実証評価を行う。
ソースコーパスとターゲットコーパスが異なるドメインから来た場合,性能は急速に低下することがわかった。
さらに、ソース言語とターゲット言語が異なるスクリプトを使用すると、教師なしMT性能が低下し、信頼性の高い低リソース言語ペアにおいて非常に低いパフォーマンスが観察される。
- 参考スコア(独自算出の注目度): 23.690875724726908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the reported success of unsupervised machine translation (MT), the
field has yet to examine the conditions under which these methods succeed, and
where they fail. We conduct an extensive empirical evaluation of unsupervised
MT using dissimilar language pairs, dissimilar domains, diverse datasets, and
authentic low-resource languages. We find that performance rapidly deteriorates
when source and target corpora are from different domains, and that random word
embedding initialization can dramatically affect downstream translation
performance. We additionally find that unsupervised MT performance declines
when source and target languages use different scripts, and observe very poor
performance on authentic low-resource language pairs. We advocate for extensive
empirical evaluation of unsupervised MT systems to highlight failure points and
encourage continued research on the most promising paradigms.
- Abstract(参考訳): 非教師なし機械翻訳(MT)の成功は報告されているが、この分野はまだこれらの手法が成功する条件と失敗の状況を調べていない。
我々は、異種言語ペア、異種ドメイン、多様なデータセット、真の低リソース言語を用いて、教師なしMTを広範囲に評価する。
ソースコーパスとターゲットコーパスが異なるドメインの場合に性能が急速に低下し、ランダムな単語埋め込み初期化が下流翻訳性能に劇的な影響を及ぼすことが判明した。
さらに、ソース言語とターゲット言語が異なるスクリプトを使用すると、教師なしMT性能が低下し、信頼性の高い低リソース言語ペアにおいて非常に低いパフォーマンスが観察される。
我々は,教師なしのmtシステムの広範な実証評価を提唱し,障害点を強調し,最も有望なパラダイムに関する継続的な研究を奨励する。
関連論文リスト
- Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - Perturbation-based QE: An Explainable, Unsupervised Word-level Quality
Estimation Method for Blackbox Machine Translation [12.376309678270275]
摂動に基づくQEは、単に摂動入力元文上で出力されるMTシステムを分析することで機能する。
我々のアプローチは、教師付きQEよりも、翻訳における性別バイアスや単語センスの曖昧さの誤りを検出するのに優れている。
論文 参考訳(メタデータ) (2023-05-12T13:10:57Z) - Dictionary-based Phrase-level Prompting of Large Language Models for
Machine Translation [91.57514888410205]
大規模言語モデル(LLM)は、プロンプトによる機械翻訳(MT)能力を示す。
LLMは、低リソースやドメイン転送のシナリオで一般的なまれな単語で入力を翻訳するのに苦労する。
LLMプロンプトは、バイリンガル辞書からの事前知識を用いてプロンプトの制御ヒントを提供することにより、稀な単語に対する効果的な解決策を提供することができることを示す。
論文 参考訳(メタデータ) (2023-02-15T18:46:42Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - Prompting PaLM for Translation: Assessing Strategies and Performance [16.73524055296411]
経路言語モデル (PaLM) は, 同様に訓練されたLLMの中で最強の機械翻訳(MT)性能を示した。
我々は、PaLMのMT機能に関する以前の評価を、より最近のテストセット、現代のMTメトリクス、そして人間の評価で再検討し、その性能は、印象的ではあるが、最先端の監視システムよりも遅れていることを発見した。
論文 参考訳(メタデータ) (2022-11-16T18:42:37Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z) - What Can Unsupervised Machine Translation Contribute to High-Resource
Language Pairs? [18.924296648372795]
我々は、教師なしMTと教師なしMTのどちらによって生成された正しい翻訳のスタイルを比較した。
我々は、教師なしおよび教師なしMTの利点を単一のシステムに組み合わせる方法を示す。
論文 参考訳(メタデータ) (2021-06-30T05:44:05Z) - Unsupervised Multimodal Neural Machine Translation with Pseudo Visual
Pivoting [105.5303416210736]
非教師なし機械翻訳(MT)は、最近モノリンガルコーパスのみを用いて印象的な結果を得た。
ソースターゲットの文を潜時空間で関連付けることは依然として困難である。
異なる言語が生物学的に類似の視覚システムを共有しているため、視覚的コンテンツを通してより良いアライメントを達成する可能性は有望である。
論文 参考訳(メタデータ) (2020-05-06T20:11:46Z) - When and Why is Unsupervised Neural Machine Translation Useless? [43.68079166777282]
様々なデータ設定を持つ10の翻訳タスクにおいて、教師なし手法が妥当な翻訳を生成できない条件を分析する。
我々の分析は、現在の無監督NMTの限界を指摘し、即時の研究方向も示唆している。
論文 参考訳(メタデータ) (2020-04-22T14:00:55Z) - Cross-lingual Supervision Improves Unsupervised Neural Machine
Translation [97.84871088440102]
我々は,高リソース言語対からゼロリソース翻訳方向への弱教師付き信号を活用するために,多言語非教師付きNMTフレームワークを導入する。
6つのベンチマークの教師なし翻訳方向において,BLEUスコアが3以上あることにより,翻訳品質が大幅に向上する。
論文 参考訳(メタデータ) (2020-04-07T05:46:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。