論文の概要: Online Learning Meets Machine Translation Evaluation: Finding the Best
Systems with the Least Human Effort
- arxiv url: http://arxiv.org/abs/2105.13385v1
- Date: Thu, 27 May 2021 18:19:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-31 13:42:38.591051
- Title: Online Learning Meets Machine Translation Evaluation: Finding the Best
Systems with the Least Human Effort
- Title(参考訳): オンライン学習は機械翻訳の評価と出会う:人間の最小の努力で最適なシステムを見つける
- Authors: V\^ania Mendon\c{c}a (1 and 2), Ricardo Rei (1 and 2 and 3), Luisa
Coheur (1 and 2), Alberto Sardinha (1 and 2), Ana L\'ucia Santos (4 and 5)
((1) INESC-ID Lisboa, (2) Instituto Superior T\'ecnico, (3) Unbabel AI, (4)
Centro de Lingu\'istica da Universidade de Lisboa, (5) Faculdade de Letras da
Universidade de Lisboa)
- Abstract要約: 機械翻訳では、大量の自動翻訳の品質を評価することは困難である。
本稿では,機械翻訳システムのアンサンブルを前提として,最適システムに動的に収束するオンライン学習の新たな応用を提案する。
WMT'19データセットに対する我々の実験は、オンラインアプローチが、考慮された言語ペアの上位3位システムに迅速に収束していることを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In Machine Translation, assessing the quality of a large amount of automatic
translations can be challenging. Automatic metrics are not reliable when it
comes to high performing systems. In addition, resorting to human evaluators
can be expensive, especially when evaluating multiple systems. To overcome the
latter challenge, we propose a novel application of online learning that, given
an ensemble of Machine Translation systems, dynamically converges to the best
systems, by taking advantage of the human feedback available. Our experiments
on WMT'19 datasets show that our online approach quickly converges to the top-3
ranked systems for the language pairs considered, despite the lack of human
feedback for many translations.
- Abstract(参考訳): 機械翻訳では、大量の自動翻訳の品質を評価することは困難である。
自動メトリクスは、ハイパフォーマンスなシステムに関しては信頼できない。
また,複数のシステムを評価する場合,人的評価を行うには費用がかかる。
後者の課題を克服するために,機械翻訳システムのアンサンブルが与えられた場合,利用可能な人間のフィードバックを生かして,動的に最善のシステムに収束するオンライン学習の新たな応用を提案する。
WMT'19データセットに対する我々の実験は、我々のオンラインアプローチが、多くの翻訳に対する人間のフィードバックの欠如にもかかわらず、考慮された言語ペアの上位3位のシステムに急速に収束していることを示している。
関連論文リスト
- Evaluating Automatic Metrics with Incremental Machine Translation Systems [55.78547133890403]
商業機械翻訳からなるデータセットを導入し,12の翻訳方向から6年間にわたって収集した。
商業システムは時間とともに改善され、より最近の翻訳の好みに基づいて機械翻訳(MT)メトリクスを評価することができると仮定する。
論文 参考訳(メタデータ) (2024-07-03T17:04:17Z) - Convergences and Divergences between Automatic Assessment and Human Evaluation: Insights from Comparing ChatGPT-Generated Translation and Neural Machine Translation [1.6982207802596105]
本研究では,自動計測と人的評価の収束と相違について検討する。
自動評価を行うには,DQF-MQMのエラータイプと6つのルーリックを人間の評価に組み込んだ4つの自動計測手法を用いる。
その結果、高度な翻訳ツールの性能を評価する上で、人間の判断が不可欠であることが示された。
論文 参考訳(メタデータ) (2024-01-10T14:20:33Z) - Quality Estimation of Machine Translated Texts based on Direct Evidence
from Training Data [0.0]
MTシステムのトレーニングデータとして使用される並列コーパスは,MTシステムによって生成された翻訳の質を推定するための直接的な手がかりを有することを示す。
実験の結果,本手法は純粋にデータ駆動型機械翻訳システムによって生成された翻訳の品質評価に有効であることがわかった。
論文 参考訳(メタデータ) (2023-06-27T11:52:28Z) - Why don't people use character-level machine translation? [69.53730499849023]
文字レベルシステムがサブワードシステムに匹敵する証拠があるにもかかわらず、機械翻訳競争において競合する設定ではほとんど使われない。
文字レベルのMTシステムは、しばしばモチベーションが高いにもかかわらず、ドメインの堅牢性も、モルフォロジーの一般化も良くない。
論文 参考訳(メタデータ) (2021-10-15T16:43:31Z) - It is Not as Good as You Think! Evaluating Simultaneous Machine
Translation on Interpretation Data [58.105938143865906]
我々は、実解釈データに基づいて、SiMTシステムをトレーニングし、テストすべきであると主張している。
以上の結果から,SiMTモデルが翻訳データと解釈データで評価された場合,最大13.83BLEUスコアの違いが明らかになった。
論文 参考訳(メタデータ) (2021-10-11T12:27:07Z) - Non-Parametric Online Learning from Human Feedback for Neural Machine
Translation [54.96594148572804]
本稿では,人間のフィードバックによるオンライン学習の課題について検討する。
従来手法では、高品質な性能を達成するために、オンラインモデル更新や翻訳メモリネットワークの追加が必要であった。
モデル構造を変更することなく、新しい非パラメトリックオンライン学習手法を提案する。
論文 参考訳(メタデータ) (2021-09-23T04:26:15Z) - Difficulty-Aware Machine Translation Evaluation [19.973201669851626]
本稿では,新しい難易度対応機械翻訳評価指標を提案する。
ほとんどのMTシステムで予測できない翻訳は難解なものとして扱われ、最終的なスコア関数に大きな重みが割り当てられる。
提案手法は,MTシステムすべてが非常に競争力がある場合でも良好に機能する。
論文 参考訳(メタデータ) (2021-07-30T02:45:36Z) - Experts, Errors, and Context: A Large-Scale Study of Human Evaluation
for Machine Translation [19.116396693370422]
本稿では,多次元品質指標フレームワークに基づく明示的誤り分析に基づく評価手法を提案する。
我々はこれまでで最大のMQM研究を行い、WMT 2020の共通タスクから上位システムの出力を2つの言語ペアで評価した。
得られたデータを広範囲に分析し,wmtの群集作業員が確立したシステムとは,評価システムのランキングが実質的に異なる点を見出した。
論文 参考訳(メタデータ) (2021-04-29T16:42:09Z) - Machine Translation of Novels in the Age of Transformer [1.6453685972661827]
本研究では,ニューラルMT (NMT) の最先端アーキテクチャをベースとした,英語からカタルーニャ語への翻訳方向の機械翻訳システムを構築した。
本稿では,このMTシステムと他の3つのシステム(リカレントおよびフレーズベースパラダイムに基づく2つのドメイン固有システムと一般的なオンラインシステム)を比較した。
予想通り、ドメイン固有のトランスフォーマーベースのシステムは、すべての3つの評価において、全ての場合において、大きなマージンで、他の3つのシステムよりも優れていた。
論文 参考訳(メタデータ) (2020-11-30T16:51:08Z) - Curious Case of Language Generation Evaluation Metrics: A Cautionary
Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。
これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。
本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文 参考訳(メタデータ) (2020-10-26T13:57:20Z) - Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。
本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文 参考訳(メタデータ) (2020-06-11T09:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。