Fugu-MT 論文翻訳(概要): Variance-Aware Machine Translation Test Sets

論文の概要: Variance-Aware Machine Translation Test Sets

arxiv url: http://arxiv.org/abs/2111.04079v1
Date: Sun, 7 Nov 2021 13:18:59 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-10 06:01:28.879974
Title: Variance-Aware Machine Translation Test Sets
Title（参考訳）: 分散対応機械翻訳テストセット
Authors: Runzhe Zhan, Xuebo Liu, Derek F. Wong, Lidia S. Chao
Abstract要約: 分散対応テストセット(VAT)と呼ばれる機械翻訳(MT)評価のための70個の小型判別テストセットをリリースする。 VATは、人間の労力なしで現在のMTテストセットの無差別なテストインスタンスをフィルタリングする、新しい分散認識フィルタリング法によって自動的に生成される。
参考スコア（独自算出の注目度）: 19.973201669851626
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We release 70 small and discriminative test sets for machine translation (MT) evaluation called variance-aware test sets (VAT), covering 35 translation directions from WMT16 to WMT20 competitions. VAT is automatically created by a novel variance-aware filtering method that filters the indiscriminative test instances of the current MT test sets without any human labor. Experimental results show that VAT outperforms the original WMT test sets in terms of the correlation with human judgement across mainstream language pairs and test sets. Further analysis on the properties of VAT reveals the challenging linguistic features (e.g., translation of low-frequency words and proper nouns) for competitive MT systems, providing guidance for constructing future MT test sets. The test sets and the code for preparing variance-aware MT test sets are freely available at https://github.com/NLP2CT/Variance-Aware-MT-Test-Sets .
Abstract（参考訳）: wmt16からwmt20への35の翻訳方向をカバーする、分散認識テストセット(vat)と呼ばれる機械翻訳評価のための70の小型かつ判別的なテストセットをリリースする。 VATは、人間の労力なしで現在のMTテストセットの無差別なテストインスタンスをフィルタリングする、新しい分散認識フィルタリング法によって自動的に生成される。実験結果から、VATは、主流言語対とテストセット間の人間の判断との相関から、元のWMTテストセットよりも優れていることが示された。 VATの特性に関するさらなる分析は、競争力のあるMTシステムのための困難な言語的特徴(例えば、低周波語と固有名詞の翻訳)を明らかにし、将来のMTテストセットを構築するためのガイダンスを提供する。分散対応MTテストセットを作成するためのテストセットとコードはhttps://github.com/NLP2CT/Variance-Aware-MT-Test-Sets で無償公開されている。

関連論文リスト

Test Adequacy for Metamorphic Testing: Criteria, Measurement, and Implication [6.199417860195402]
メタモルフィックテスト(MT)は、ソフトウェアテストにおけるオラクルの問題を軽減する手法である。 MTの試験精度評価問題について検討する研究はほとんどない。
論文参考訳（メタデータ） (2024-12-30T04:00:39Z)
Towards Zero-Shot Multimodal Machine Translation [64.9141931372384]
本稿では,マルチモーダル機械翻訳システムの学習において,完全教師付きデータの必要性を回避する手法を提案する。我々の手法はZeroMMTと呼ばれ、2つの目的の混合で学習することで、強いテキストのみの機械翻訳(MT)モデルを適応させることである。本手法が完全に教師付きトレーニングデータを持たない言語に一般化されることを証明するため,CoMMuTE評価データセットをアラビア語,ロシア語,中国語の3言語に拡張した。
論文参考訳（メタデータ） (2024-07-18T15:20:31Z)
Evaluating Automatic Metrics with Incremental Machine Translation Systems [55.78547133890403]
商業機械翻訳からなるデータセットを導入し,12の翻訳方向から6年間にわたって収集した。商業システムは時間とともに改善され、より最近の翻訳の好みに基づいて機械翻訳(MT)メトリクスを評価することができると仮定する。
論文参考訳（メタデータ） (2024-07-03T17:04:17Z)
OTTAWA: Optimal TransporT Adaptive Word Aligner for Hallucination and Omission Translation Errors Detection [36.59354124910338]
オタワ(Ottawa)は、機械翻訳システムにおける幻覚や失語の検出を強化するために特別に設計された単語整合器である。提案手法は,HalOmiベンチマークを用いた18言語対の最先端手法と比較して,競争力のある結果が得られる。
論文参考訳（メタデータ） (2024-06-04T03:00:55Z)
The Case for Evaluating Multimodal Translation Models on Text Datasets [1.6192978014459543]
マルチモーダル機械翻訳モデルは、視覚情報の利用と複雑な文の翻訳能力を測定することで評価されるべきである。 MMTの現在の作業のほとんどは、これらの特性を計測しないMulti30kテストセットに対して評価されている。我々は,1)MMTモデルによる視覚情報の利用を測定するCoMMuTE評価フレームワーク,2)複雑な文に対する翻訳性能を評価するテキストのみのWMTニュース翻訳タスクテストセット,3)Multi30kテストセットを用いて,MMTモデルの性能を実MMTデータセットに対して測定する。
論文参考訳（メタデータ） (2024-03-05T14:49:52Z)
Towards General Error Diagnosis via Behavioral Testing in Machine Translation [48.108393938462974]
本稿では,機械翻訳(MT)システムの動作試験を行うための新しい枠組みを提案する。 BTPGBTの中核となる考え方は、新しいバイリンガル翻訳ペア生成アプローチを採用することである。様々なMTシステムの実験結果から,BTPGBTは包括的かつ正確な行動検査結果を提供できることが示された。
論文参考訳（メタデータ） (2023-10-20T09:06:41Z)
Automating Behavioral Testing in Machine Translation [9.151054827967933]
本稿では,機械翻訳モデルの振る舞いをテストするために,大規模言語モデルを用いてソース文を生成することを提案する。 MTモデルが一致した候補集合を通して期待される振る舞いを示すかどうかを検証することができる。本研究の目的は,人的労力を最小限に抑えながら,MTシステムの動作試験を実践することである。
論文参考訳（メタデータ） (2023-09-05T19:40:45Z)
Error Analysis Prompting Enables Human-Like Translation Evaluation in Large Language Models [57.80514758695275]
機械翻訳(MT)の品質を評価するために,大規模言語モデル(LLM)を用いることで,システムレベルでの最先端のパフォーマンスを実現する。我々はtextbftexttError Analysis Prompting (EAPrompt) と呼ばれる新しいプロンプト手法を提案する。本手法は,多次元品質指標 (MQM) とtextitproduces を用いて,システムレベルとセグメントレベルの両方で説明可能かつ信頼性の高いMT評価を行う。
論文参考訳（メタデータ） (2023-03-24T05:05:03Z)
Statistical Machine Translation for Indic Languages [1.8899300124593648]
本稿では,バイリンガル統計機械翻訳モデルの開発について論じる。このシステムを構築するために,MOSES オープンソース SMT ツールキットについて検討した。本実験では, BLEU, METEOR, RIBESなどの標準指標を用いて, 翻訳の質を評価する。
論文参考訳（メタデータ） (2023-01-02T06:23:12Z)
Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文参考訳（メタデータ） (2022-12-20T14:39:58Z)
Measuring Uncertainty in Translation Quality Evaluation (TQE) [62.997667081978825]
本研究は,翻訳テキストのサンプルサイズに応じて,信頼区間を精度良く推定する動機づけた研究を行う。我々はベルヌーイ統計分布モデリング (BSDM) とモンテカルロサンプリング分析 (MCSA) の手法を適用した。
論文参考訳（メタデータ） (2021-11-15T12:09:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。