論文の概要: Variance-Aware Machine Translation Test Sets
- arxiv url: http://arxiv.org/abs/2111.04079v1
- Date: Sun, 7 Nov 2021 13:18:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-10 06:01:28.879974
- Title: Variance-Aware Machine Translation Test Sets
- Title(参考訳): 分散対応機械翻訳テストセット
- Authors: Runzhe Zhan, Xuebo Liu, Derek F. Wong, Lidia S. Chao
- Abstract要約: 分散対応テストセット(VAT)と呼ばれる機械翻訳(MT)評価のための70個の小型判別テストセットをリリースする。
VATは、人間の労力なしで現在のMTテストセットの無差別なテストインスタンスをフィルタリングする、新しい分散認識フィルタリング法によって自動的に生成される。
- 参考スコア(独自算出の注目度): 19.973201669851626
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We release 70 small and discriminative test sets for machine translation (MT)
evaluation called variance-aware test sets (VAT), covering 35 translation
directions from WMT16 to WMT20 competitions. VAT is automatically created by a
novel variance-aware filtering method that filters the indiscriminative test
instances of the current MT test sets without any human labor. Experimental
results show that VAT outperforms the original WMT test sets in terms of the
correlation with human judgement across mainstream language pairs and test
sets. Further analysis on the properties of VAT reveals the challenging
linguistic features (e.g., translation of low-frequency words and proper nouns)
for competitive MT systems, providing guidance for constructing future MT test
sets. The test sets and the code for preparing variance-aware MT test sets are
freely available at https://github.com/NLP2CT/Variance-Aware-MT-Test-Sets .
- Abstract(参考訳): wmt16からwmt20への35の翻訳方向をカバーする、分散認識テストセット(vat)と呼ばれる機械翻訳評価のための70の小型かつ判別的なテストセットをリリースする。
VATは、人間の労力なしで現在のMTテストセットの無差別なテストインスタンスをフィルタリングする、新しい分散認識フィルタリング法によって自動的に生成される。
実験結果から、VATは、主流言語対とテストセット間の人間の判断との相関から、元のWMTテストセットよりも優れていることが示された。
VATの特性に関するさらなる分析は、競争力のあるMTシステムのための困難な言語的特徴(例えば、低周波語と固有名詞の翻訳)を明らかにし、将来のMTテストセットを構築するためのガイダンスを提供する。
分散対応MTテストセットを作成するためのテストセットとコードはhttps://github.com/NLP2CT/Variance-Aware-MT-Test-Sets で無償公開されている。
関連論文リスト
- The Case for Evaluating Multimodal Translation Models on Text Datasets [1.6192978014459543]
マルチモーダル機械翻訳モデルは、視覚情報の利用と複雑な文の翻訳能力を測定することで評価されるべきである。
MMTの現在の作業のほとんどは、これらの特性を計測しないMulti30kテストセットに対して評価されている。
我々は,1)MMTモデルによる視覚情報の利用を測定するCoMMuTE評価フレームワーク,2)複雑な文に対する翻訳性能を評価するテキストのみのWMTニュース翻訳タスクテストセット,3)Multi30kテストセットを用いて,MMTモデルの性能を実MMTデータセットに対して測定する。
論文 参考訳(メタデータ) (2024-03-05T14:49:52Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - Towards General Error Diagnosis via Behavioral Testing in Machine
Translation [48.108393938462974]
本稿では,機械翻訳(MT)システムの動作試験を行うための新しい枠組みを提案する。
BTPGBTの中核となる考え方は、新しいバイリンガル翻訳ペア生成アプローチを採用することである。
様々なMTシステムの実験結果から,BTPGBTは包括的かつ正確な行動検査結果を提供できることが示された。
論文 参考訳(メタデータ) (2023-10-20T09:06:41Z) - Automating Behavioral Testing in Machine Translation [9.151054827967933]
本稿では,機械翻訳モデルの振る舞いをテストするために,大規模言語モデルを用いてソース文を生成することを提案する。
MTモデルが一致した候補集合を通して期待される振る舞いを示すかどうかを検証することができる。
本研究の目的は,人的労力を最小限に抑えながら,MTシステムの動作試験を実践することである。
論文 参考訳(メタデータ) (2023-09-05T19:40:45Z) - Translation-Enhanced Multilingual Text-to-Image Generation [61.41730893884428]
テキスト・ツー・イメージ・ジェネレーション(TTI)の研究は、現在でも主に英語に焦点を当てている。
そこで本研究では,多言語TTIとニューラルマシン翻訳(NMT)のブートストラップmTTIシステムへの応用について検討する。
我々は,mTTIフレームワーク内で多言語テキスト知識を重み付け,統合する新しいパラメータ効率アプローチであるEnsemble Adapter (EnsAd)を提案する。
論文 参考訳(メタデータ) (2023-05-30T17:03:52Z) - Error Analysis Prompting Enables Human-Like Translation Evaluation in
Large Language Models [61.25124893688374]
機械翻訳(MT)の品質を評価するために,大規模言語モデル(LLM)を用いることで,システムレベルでの最先端のパフォーマンスを実現する。
我々はtextbftexttError Analysis Prompting (EAPrompt) と呼ばれる新しいプロンプト手法を提案する。
本手法は,多次元品質指標 (MQM) とtextitproduces を用いて,システムレベルとセグメントレベルの両方で説明可能かつ信頼性の高いMT評価を行う。
論文 参考訳(メタデータ) (2023-03-24T05:05:03Z) - Statistical Machine Translation for Indic Languages [1.8899300124593648]
本稿では,バイリンガル統計機械翻訳モデルの開発について論じる。
このシステムを構築するために,MOSES オープンソース SMT ツールキットについて検討した。
本実験では, BLEU, METEOR, RIBESなどの標準指標を用いて, 翻訳の質を評価する。
論文 参考訳(メタデータ) (2023-01-02T06:23:12Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - Measuring Uncertainty in Translation Quality Evaluation (TQE) [62.997667081978825]
本研究は,翻訳テキストのサンプルサイズに応じて,信頼区間を精度良く推定する動機づけた研究を行う。
我々はベルヌーイ統計分布モデリング (BSDM) とモンテカルロサンプリング分析 (MCSA) の手法を適用した。
論文 参考訳(メタデータ) (2021-11-15T12:09:08Z) - Difficulty-Aware Machine Translation Evaluation [19.973201669851626]
本稿では,新しい難易度対応機械翻訳評価指標を提案する。
ほとんどのMTシステムで予測できない翻訳は難解なものとして扱われ、最終的なスコア関数に大きな重みが割り当てられる。
提案手法は,MTシステムすべてが非常に競争力がある場合でも良好に機能する。
論文 参考訳(メタデータ) (2021-07-30T02:45:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。