論文の概要: Meta-Evaluation of Translation Evaluation Methods: a systematic up-to-date overview
- arxiv url: http://arxiv.org/abs/1605.04515v9
- Date: Wed, 06 Aug 2025 15:29:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-17 14:06:20.990458
- Title: Meta-Evaluation of Translation Evaluation Methods: a systematic up-to-date overview
- Title(参考訳): 翻訳評価手法のメタ評価:体系的最新の概要
- Authors: Lifeng Han, Serge Gladkoff,
- Abstract要約: 1950年代から、機械翻訳(MT)は様々な科学的解決法に挑戦された。
本稿では,従来の人的判断基準,自動評価基準,評価手法のメタ評価について概説する。
- 参考スコア(独自算出の注目度): 4.880243880711164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Starting from the 1950s, Machine Translation (MT) was challenged by different scientific solutions, which included rule-based methods, example-based and statistical models (SMT), to hybrid models, and very recent years the neural models (NMT). While NMT has achieved a huge quality improvement in comparison to conventional methodologies, by taking advantage of a huge amount of parallel corpora available from the internet and the recently developed super computational power support with an acceptable cost, it struggles to achieve real human parity in many domains and most language pairs, if not all of them. Alongside the long road of MT research and development, quality evaluation metrics played very important roles in MT advancement and evolution. In this tutorial, we overview the traditional human judgement criteria, automatic evaluation metrics, unsupervised quality estimation models, as well as the meta-evaluation of the evaluation methods. Among these, we will also cover the very recent work in the MT evaluation (MTE) fields, taking advantage of the large size of pre-trained language models for automatic metric customisation towards exactly deployed language pairs and domains. In addition, we also introduce the statistical confidence estimation regarding the sample size needed for human evaluation in real practice simulation. Full tutorial material is \textbf{available} to download at https://github.com/poethan/LREC22_MetaEval_Tutorial.
- Abstract(参考訳): 1950年代から、機械翻訳(MT)は、ルールベースの手法、例ベースおよび統計モデル(SMT)、ハイブリッドモデル、そして最近になってニューラルモデル(NMT)など、様々な科学的解決策によって挑戦された。
NMTは、インターネットから利用可能な大量の並列コーパスと、最近開発された超計算パワーサポートを許容可能なコストで活用することで、従来の手法と比較して、大幅な品質向上を実現してきたが、多くのドメインやほとんどの言語対において、すべてではないとしても、実際の人間のパリティを達成するのに苦労している。
MTの研究開発の長い道のりとともに、品質評価指標はMTの進歩と進化において非常に重要な役割を担った。
本稿では,従来の人的判断基準,自動評価基準,教師なし品質評価モデル,評価手法のメタ評価について概説する。
これらのうち、MT評価(MTE)分野における最近の研究についても取り上げ、事前訓練された言語モデルの大きさを利用して、正確にデプロイされた言語ペアとドメインに対する自動メートル法をカスタマイズする。
また,実際のシミュレーションにおいて,人体評価に必要なサンプルサイズに関する統計的信頼度の推定も導入した。
チュートリアル資料はhttps://github.com/poethan/LREC22_MetaEval_Tutorial.comからダウンロードできる。
関連論文リスト
- QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Learning Evaluation Models from Large Language Models for Sequence Generation [61.8421748792555]
本稿では,大規模言語モデルを用いた3段階評価モデルトレーニング手法を提案する。
SummEval ベンチマークによる実験結果から,CSEM は人間ラベルデータなしで評価モデルを効果的に訓練できることが示された。
論文 参考訳(メタデータ) (2023-08-08T16:41:16Z) - MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
視覚言語モデルのマルチモーダル能力を評価するためのベンチマークであるMMBenchを提案する。
MMBenchは、よく設計された品質制御スキームで慎重にキュレートされている。
MMBenchは英語版と中国語版の両方で複数の質問を取り入れている。
論文 参考訳(メタデータ) (2023-07-12T16:23:09Z) - An Overview on Machine Translation Evaluation [6.85316573653194]
機械翻訳(MT)はAIと開発の重要なタスクの1つとなっている。
MTの評価課題は,機械翻訳の質を評価するだけでなく,機械翻訳研究者にタイムリーなフィードバックを与えることである。
本報告は,機械翻訳評価(MTE)の略歴,MTE研究手法の分類,最先端の進展について概説する。
論文 参考訳(メタデータ) (2022-02-22T16:58:28Z) - Evaluating Multiway Multilingual NMT in the Turkic Languages [11.605271847666005]
本研究では、テュルク語族に属する22言語における機械翻訳システムの訓練と評価のための最先端手法の評価を行う。
我々は,26のバイリンガルベースラインと,コーパスを用いたマルチウェイニューラルMT(MNMT)モデルを訓練し,自動測定と人的評価を用いた広範囲な解析を行った。
MNMTモデルは、ドメイン外テストセットのほとんど全てのバイリンガルベースラインより優れており、単一のペアの下流タスクでモデルを微調整することで、大きなパフォーマンス向上がもたらされる。
論文 参考訳(メタデータ) (2021-09-13T19:01:07Z) - COMET: A Neural Framework for MT Evaluation [8.736370689844682]
COMETは多言語機械翻訳評価モデルのトレーニングのためのニューラルネットワークフレームワークである。
本フレームワークは、MT品質をより正確に予測するために、ソース入力とターゲット言語参照変換の両方からの情報を利用する。
我々のモデルは、WMT 2019 Metricsの共有タスクにおいて、新しい最先端のパフォーマンスを実現し、ハイパフォーマンスシステムに対する堅牢性を実証する。
論文 参考訳(メタデータ) (2020-09-18T18:54:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。