論文の概要: When Does Translation Require Context? A Data-driven, Multilingual
Exploration
- arxiv url: http://arxiv.org/abs/2109.07446v1
- Date: Wed, 15 Sep 2021 17:29:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-16 15:15:09.178229
- Title: When Does Translation Require Context? A Data-driven, Multilingual
Exploration
- Title(参考訳): 翻訳にコンテキストはいつ必要か?
データ駆動多言語探索
- Authors: Kayo Yin, Patrick Fernandes, Andr\'e F. T. Martins, Graham Neubig
- Abstract要約: 我々は,文脈を体系的に要求する翻訳を識別する新しい指標であるP-CXMIを提案する。
次に、14の異なる言語対でこれらの現象の一連のタグであるMultilingual Discourse-Aware(MuDA)ベンチマークを開発する。
我々のベンチマークでは、最先端の文脈認識型MTモデルは文脈認識型モデルよりも限界的な改善が見られ、現在のモデルではこれらの曖昧さを効果的に扱えないことが示唆されている。
- 参考スコア(独自算出の注目度): 64.5726087590283
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although proper handling of discourse phenomena significantly contributes to
the quality of machine translation (MT), common translation quality metrics do
not adequately capture them. Recent works in context-aware MT attempt to target
a small set of these phenomena during evaluation. In this paper, we propose a
new metric, P-CXMI, which allows us to identify translations that require
context systematically and confirm the difficulty of previously studied
phenomena as well as uncover new ones that have not been addressed in previous
work. We then develop the Multilingual Discourse-Aware (MuDA) benchmark, a
series of taggers for these phenomena in 14 different language pairs, which we
use to evaluate context-aware MT. We find that state-of-the-art context-aware
MT models find marginal improvements over context-agnostic models on our
benchmark, which suggests current models do not handle these ambiguities
effectively. We release code and data to invite the MT research community to
increase efforts on context-aware translation on discourse phenomena and
languages that are currently overlooked.
- Abstract(参考訳): 談話現象の適切な処理は機械翻訳の質(mt)に大きく寄与するが、一般的な翻訳品質指標では適切に捉えられていない。
文脈認識型MTにおける最近の研究は、評価中にこれらの現象の小さなセットを目標にしようとしている。
本稿では,従来研究されてきた現象の難易度を確認するとともに,文脈を体系的に要求する翻訳を識別する新しい指標であるP-CXMIを提案する。
そこで我々は,これらの現象を14種類の異なる言語ペアに分類し,文脈認識MTの評価に使用するMuDAベンチマークを開発した。現状の文脈認識MTモデルでは,文脈非依存モデルよりも限界的な改善が見出され,現在のモデルではこれらの曖昧さを効果的に扱えないことが示唆されている。
我々はMT研究コミュニティを招待するためにコードとデータを公開し、現在見過ごされている談話現象や言語に関する文脈対応翻訳への取り組みを強化する。
関連論文リスト
- Context-Aware Machine Translation with Source Coreference Explanation [26.336947440529713]
本稿では,入力中のコア参照の特徴を予測し,翻訳のための意思決定を説明するモデルを提案する。
我々は、WMT文書レベルの翻訳タスクにおいて、英語-ドイツ語データセット、英語-ロシア語データセット、多言語TEDトークデータセットの評価を行った。
論文 参考訳(メタデータ) (2024-04-30T12:41:00Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - BLEURT Has Universal Translations: An Analysis of Automatic Metrics by
Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。
BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。
詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文 参考訳(メタデータ) (2023-07-06T16:59:30Z) - Discourse Centric Evaluation of Machine Translation with a Densely
Annotated Parallel Corpus [82.07304301996562]
本稿では,江らが導入した大規模並列コーパスBWBに基づいて,リッチな談話アノテーションを用いた新しいデータセットを提案する。
ソース言語とターゲット言語の談話構造と類似点と相違点について検討する。
我々はMT出力が人間の翻訳と基本的に異なることを発見した。
論文 参考訳(メタデータ) (2023-05-18T17:36:41Z) - Evaluating and Improving the Coreference Capabilities of Machine
Translation Models [30.60934078720647]
機械翻訳は幅広い言語能力を必要とする。
現在のエンドツーエンドモデルは、バイリンガルコーパスで一致した文を観察することで暗黙的に学習することが期待されている。
論文 参考訳(メタデータ) (2023-02-16T18:16:09Z) - PheMT: A Phenomenon-wise Dataset for Machine Translation Robustness on
User-Generated Contents [40.25277134147149]
日本語翻訳における特定の言語現象に対するMTシステムの堅牢性を評価するための新しいデータセットであるPheMTを提案する。
作成したデータセットを用いて行った実験では、社内モデルだけでなく、市販のシステムでも、特定の現象の存在によって大きく混乱していることが明らかになりました。
論文 参考訳(メタデータ) (2020-11-04T04:44:47Z) - Can Your Context-Aware MT System Pass the DiP Benchmark Tests? :
Evaluation Benchmarks for Discourse Phenomena in Machine Translation [7.993547048820065]
本稿では,4つの主要な談話現象の追跡と改善を目的としたMTベンチマークデータセットについて紹介する。
驚くべきことに、既存の文脈認識モデルでは、言語や現象間の会話関連翻訳が一貫して改善されない。
論文 参考訳(メタデータ) (2020-04-30T07:15:36Z) - When Does Unsupervised Machine Translation Work? [23.690875724726908]
我々は、異種言語ペア、異種ドメイン、多様なデータセット、真の低リソース言語を用いて、教師なし機械翻訳(MT)の実証評価を行う。
ソースコーパスとターゲットコーパスが異なるドメインから来た場合,性能は急速に低下することがわかった。
さらに、ソース言語とターゲット言語が異なるスクリプトを使用すると、教師なしMT性能が低下し、信頼性の高い低リソース言語ペアにおいて非常に低いパフォーマンスが観察される。
論文 参考訳(メタデータ) (2020-04-12T00:57:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。