論文の概要: Can Your Context-Aware MT System Pass the DiP Benchmark Tests? :
Evaluation Benchmarks for Discourse Phenomena in Machine Translation
- arxiv url: http://arxiv.org/abs/2004.14607v1
- Date: Thu, 30 Apr 2020 07:15:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 04:05:26.532556
- Title: Can Your Context-Aware MT System Pass the DiP Benchmark Tests? :
Evaluation Benchmarks for Discourse Phenomena in Machine Translation
- Title(参考訳): コンテキスト認識型MTシステムはDiPベンチマークテストに合格できるか?
機械翻訳における談話現象の評価ベンチマーク
- Authors: Prathyusha Jwalapuram, Barbara Rychalska, Shafiq Joty and Dominika
Basaj
- Abstract要約: 本稿では,4つの主要な談話現象の追跡と改善を目的としたMTベンチマークデータセットについて紹介する。
驚くべきことに、既存の文脈認識モデルでは、言語や現象間の会話関連翻訳が一貫して改善されない。
- 参考スコア(独自算出の注目度): 7.993547048820065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite increasing instances of machine translation (MT) systems including
contextual information, the evidence for translation quality improvement is
sparse, especially for discourse phenomena. Popular metrics like BLEU are not
expressive or sensitive enough to capture quality improvements or drops that
are minor in size but significant in perception. We introduce the first of
their kind MT benchmark datasets that aim to track and hail improvements across
four main discourse phenomena: anaphora, lexical consistency, coherence and
readability, and discourse connective translation. We also introduce evaluation
methods for these tasks, and evaluate several baseline MT systems on the
curated datasets. Surprisingly, we find that existing context-aware models do
not improve discourse-related translations consistently across languages and
phenomena.
- Abstract(参考訳): 文脈情報を含む機械翻訳(MT)システムの事例が増えているにもかかわらず、翻訳品質改善の証拠は、特に談話現象に対して少ない。
bleuのような人気のあるメトリクスは、サイズが小さいが知覚が重要な品質改善や低下を捉えるのに十分な表現力や感度がない。
我々は,4つの主要な談話現象(アナフォラ,語彙整合性,コヒーレンスと可読性,談話接続翻訳)にまたがる改善を追跡することを目的としたMTベンチマークデータセットの最初のものを紹介する。
また,これらのタスクに対する評価手法を導入し,複数のmtシステムの評価を行った。
驚くべきことに、既存の文脈認識モデルでは言語や現象間の会話関連翻訳が一貫して改善されない。
関連論文リスト
- Evaluating Automatic Metrics with Incremental Machine Translation Systems [55.78547133890403]
商業機械翻訳からなるデータセットを導入し,12の翻訳方向から6年間にわたって収集した。
商業システムは時間とともに改善され、より最近の翻訳の好みに基づいて機械翻訳(MT)メトリクスを評価することができると仮定する。
論文 参考訳(メタデータ) (2024-07-03T17:04:17Z) - BLEURT Has Universal Translations: An Analysis of Automatic Metrics by
Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。
BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。
詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文 参考訳(メタデータ) (2023-07-06T16:59:30Z) - Discourse Centric Evaluation of Machine Translation with a Densely
Annotated Parallel Corpus [82.07304301996562]
本稿では,江らが導入した大規模並列コーパスBWBに基づいて,リッチな談話アノテーションを用いた新しいデータセットを提案する。
ソース言語とターゲット言語の談話構造と類似点と相違点について検討する。
我々はMT出力が人間の翻訳と基本的に異なることを発見した。
論文 参考訳(メタデータ) (2023-05-18T17:36:41Z) - Machine Translation Impact in E-commerce Multilingual Search [0.0]
言語間情報検索は機械翻訳の品質と高い相関関係を持つ。
クエリ翻訳の品質を改善することで、検索性能をさらに向上するメリットはほとんど、あるいは全く得られない、というしきい値が存在するかもしれない。
論文 参考訳(メタデータ) (2023-01-31T21:59:35Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z) - Document-aligned Japanese-English Conversation Parallel Corpus [4.793904440030568]
文レベル (SL) 機械翻訳 (MT) は、多くの高リソース言語で許容できる品質に達しているが、文書レベル (DL) MT には達していない。
バランスの取れた高品質のビジネス会話データを含む文書整合日英会話コーパスを提示し、チューニングとテストを行います。
私たちは、コーパスを使用してMTモデルをトレーニングし、コンテキストの使用が改善につながることを示す。
論文 参考訳(メタデータ) (2020-12-11T06:03:33Z) - On the Limitations of Cross-lingual Encoders as Exposed by
Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。
本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。
事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。
参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文 参考訳(メタデータ) (2020-05-03T22:10:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。