論文の概要: When Does Translation Require Context? A Data-driven, Multilingual
Exploration
- arxiv url: http://arxiv.org/abs/2109.07446v2
- Date: Tue, 27 Jun 2023 17:10:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 18:26:20.775611
- Title: When Does Translation Require Context? A Data-driven, Multilingual
Exploration
- Title(参考訳): 翻訳にコンテキストはいつ必要か?
データ駆動多言語探索
- Authors: Patrick Fernandes, Kayo Yin, Emmy Liu, Andr\'e F. T. Martins, Graham
Neubig
- Abstract要約: 談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
- 参考スコア(独自算出の注目度): 71.43817945875433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although proper handling of discourse significantly contributes to the
quality of machine translation (MT), these improvements are not adequately
measured in common translation quality metrics. Recent works in context-aware
MT attempt to target a small set of discourse phenomena during evaluation,
however not in a fully systematic way. In this paper, we develop the
Multilingual Discourse-Aware (MuDA) benchmark, a series of taggers that
identify and evaluate model performance on discourse phenomena in any given
dataset. The choice of phenomena is inspired by a novel methodology to
systematically identify translations requiring context. We confirm the
difficulty of previously studied phenomena while uncovering others that were
previously unaddressed. We find that common context-aware MT models make only
marginal improvements over context-agnostic models, which suggests these models
do not handle these ambiguities effectively. We release code and data for 14
language pairs to encourage the MT community to focus on accurately capturing
discourse phenomena.
- Abstract(参考訳): 談話の適切な処理は機械翻訳の品質(MT)に大きく貢献するが、これらの改善は共通の翻訳品質指標では適切に測定されない。
文脈認識mtにおける最近の研究は、完全に体系的ではないが、評価中に少数の談話現象を対象とする試みである。
本稿では,任意のデータセットにおける談話現象のモデル性能を識別し,評価するタグである,多言語談話認識(MuDA)ベンチマークを開発する。
現象の選択は、文脈を必要とする翻訳を体系的に識別する新しい方法論に触発されている。
従来研究されてきた現象の難しさを確認しつつ,未対応の他の現象を解明する。
一般的な文脈認識型MTモデルは文脈に依存しないモデルよりも限界的な改善しか行わず、これらのモデルがこれらの曖昧さを効果的に扱わないことを示唆している。
14言語対のコードとデータを公開し、MTコミュニティが談話現象を正確に捉えることに集中できるようにします。
関連論文リスト
- Context-Aware Machine Translation with Source Coreference Explanation [26.336947440529713]
本稿では,入力中のコア参照の特徴を予測し,翻訳のための意思決定を説明するモデルを提案する。
我々は、WMT文書レベルの翻訳タスクにおいて、英語-ドイツ語データセット、英語-ロシア語データセット、多言語TEDトークデータセットの評価を行った。
論文 参考訳(メタデータ) (2024-04-30T12:41:00Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - BLEURT Has Universal Translations: An Analysis of Automatic Metrics by
Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。
BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。
詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文 参考訳(メタデータ) (2023-07-06T16:59:30Z) - Discourse Centric Evaluation of Machine Translation with a Densely
Annotated Parallel Corpus [82.07304301996562]
本稿では,江らが導入した大規模並列コーパスBWBに基づいて,リッチな談話アノテーションを用いた新しいデータセットを提案する。
ソース言語とターゲット言語の談話構造と類似点と相違点について検討する。
我々はMT出力が人間の翻訳と基本的に異なることを発見した。
論文 参考訳(メタデータ) (2023-05-18T17:36:41Z) - Evaluating and Improving the Coreference Capabilities of Machine
Translation Models [30.60934078720647]
機械翻訳は幅広い言語能力を必要とする。
現在のエンドツーエンドモデルは、バイリンガルコーパスで一致した文を観察することで暗黙的に学習することが期待されている。
論文 参考訳(メタデータ) (2023-02-16T18:16:09Z) - PheMT: A Phenomenon-wise Dataset for Machine Translation Robustness on
User-Generated Contents [40.25277134147149]
日本語翻訳における特定の言語現象に対するMTシステムの堅牢性を評価するための新しいデータセットであるPheMTを提案する。
作成したデータセットを用いて行った実験では、社内モデルだけでなく、市販のシステムでも、特定の現象の存在によって大きく混乱していることが明らかになりました。
論文 参考訳(メタデータ) (2020-11-04T04:44:47Z) - Can Your Context-Aware MT System Pass the DiP Benchmark Tests? :
Evaluation Benchmarks for Discourse Phenomena in Machine Translation [7.993547048820065]
本稿では,4つの主要な談話現象の追跡と改善を目的としたMTベンチマークデータセットについて紹介する。
驚くべきことに、既存の文脈認識モデルでは、言語や現象間の会話関連翻訳が一貫して改善されない。
論文 参考訳(メタデータ) (2020-04-30T07:15:36Z) - When Does Unsupervised Machine Translation Work? [23.690875724726908]
我々は、異種言語ペア、異種ドメイン、多様なデータセット、真の低リソース言語を用いて、教師なし機械翻訳(MT)の実証評価を行う。
ソースコーパスとターゲットコーパスが異なるドメインから来た場合,性能は急速に低下することがわかった。
さらに、ソース言語とターゲット言語が異なるスクリプトを使用すると、教師なしMT性能が低下し、信頼性の高い低リソース言語ペアにおいて非常に低いパフォーマンスが観察される。
論文 参考訳(メタデータ) (2020-04-12T00:57:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。