Fugu-MT 論文翻訳(概要): MetaMetrics-MT: Tuning Meta-Metrics for Machine Translation via Human Preference Calibration

論文の概要: MetaMetrics-MT: Tuning Meta-Metrics for Machine Translation via Human Preference Calibration

arxiv url: http://arxiv.org/abs/2411.00390v1
Date: Fri, 01 Nov 2024 06:34:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:43.203973
Title: MetaMetrics-MT: Tuning Meta-Metrics for Machine Translation via Human Preference Calibration
Title（参考訳）: メタメトリックス-MT:人間の選好校正による機械翻訳のためのチューニングメタメトリック
Authors: David Anugraha, Garry Kuwanto, Lucky Susanto, Derry Tanti Wijaya, Genta Indra Winata,
Abstract要約: 本稿では,機械翻訳(MT)タスクを評価するためのメタメトリックスMTを提案する。 WMT24メトリック共有タスクデータセットの実験は、MetaMetrics-MTが既存のベースライン全てより優れていることを示す。
参考スコア（独自算出の注目度）: 14.636927775315783
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present MetaMetrics-MT, an innovative metric designed to evaluate machine translation (MT) tasks by aligning closely with human preferences through Bayesian optimization with Gaussian Processes. MetaMetrics-MT enhances existing MT metrics by optimizing their correlation with human judgments. Our experiments on the WMT24 metric shared task dataset demonstrate that MetaMetrics-MT outperforms all existing baselines, setting a new benchmark for state-of-the-art performance in the reference-based setting. Furthermore, it achieves comparable results to leading metrics in the reference-free setting, offering greater efficiency.
Abstract（参考訳）: 本稿では,MetaMetrics-MTを提案する。MetaMetrics-MTは,機械翻訳(MT)タスクを,ベイジアン最適化とガウス過程により人間の好みに忠実に整合させることによって評価する手法である。 MetaMetrics-MTは、人間の判断との相関を最適化することで既存のMTメトリクスを強化する。 WMT24メトリクス共有タスクデータセットの実験では、MetaMetrics-MTが既存のベースラインを全て上回り、参照ベース設定における最先端パフォーマンスのベンチマークを新たに設定した。さらに、基準のない設定で主要なメトリクスに匹敵する結果が得られ、効率が向上する。

関連論文リスト

Multilingual Non-Autoregressive Machine Translation without Knowledge Distillation [55.525158411296474]
本稿では,非自己回帰型多言語機械翻訳へのアプローチを提案する。我々のシステムは近年の非巡回変圧器の進歩を活用している。また、未知の翻訳方向への一般化を改善するために、ピボットバックトランスレーション手法を提案する。
論文参考訳（メタデータ） (2025-02-06T22:16:28Z)
MT-LENS: An all-in-one Toolkit for Better Machine Translation Evaluation [1.7775825387442485]
MT-LENSは、様々なタスクで機械翻訳(MT)システムを評価するために設計されたフレームワークである。ユーザーフレンドリーなプラットフォームを提供し、システムを比較し、翻訳をインタラクティブな視覚化で分析する。
論文参考訳（メタデータ） (2024-12-16T09:57:28Z)
Beyond Correlation: Interpretable Evaluation of Machine Translation Metrics [46.71836180414362]
本稿では,機械翻訳(MT)メトリクスの解釈可能な評価フレームワークを提案する。このフレームワーク内では、データフィルタリングと翻訳の再ランク付けユースケースのプロキシとして機能する2つのシナリオでメトリクスを評価する。また、DA+SQMガイドラインに従って、手動でキュレートしたデータの信頼性に関する懸念も提起する。
論文参考訳（メタデータ） (2024-10-07T16:42:10Z)
Guardians of the Machine Translation Meta-Evaluation: Sentinel Metrics Fall In! [80.3129093617928]
毎年、機械翻訳会議(WMT)において、メトリクス共有タスクオーガナイザは、機械翻訳(MT)メトリクスのメタ評価を行う。この研究は、現在WMTで採用されているメタ評価フレームワークに関する2つの問題を強調し、メトリクスランキングへの影響を評価する。本稿では,メタ評価プロセスの正確性,堅牢性,公正性を精査するために設計されたセンチネルメトリクスの概念を紹介する。
論文参考訳（メタデータ） (2024-08-25T13:29:34Z)
Towards Zero-Shot Multimodal Machine Translation [64.9141931372384]
本稿では,マルチモーダル機械翻訳システムの学習において,完全教師付きデータの必要性を回避する手法を提案する。我々の手法はZeroMMTと呼ばれ、2つの目的の混合で学習することで、強いテキストのみの機械翻訳(MT)モデルを適応させることである。本手法が完全に教師付きトレーニングデータを持たない言語に一般化されることを証明するため,CoMMuTE評価データセットをアラビア語,ロシア語,中国語の3言語に拡張した。
論文参考訳（メタデータ） (2024-07-18T15:20:31Z)
Evaluating Automatic Metrics with Incremental Machine Translation Systems [55.78547133890403]
商業機械翻訳からなるデータセットを導入し,12の翻訳方向から6年間にわたって収集した。商業システムは時間とともに改善され、より最近の翻訳の好みに基づいて機械翻訳(MT)メトリクスを評価することができると仮定する。
論文参考訳（メタデータ） (2024-07-03T17:04:17Z)
Fine-Tuned Machine Translation Metrics Struggle in Unseen Domains [10.743362634494842]
このデータセットを用いて、人為的なMT品質判断に基づいて微調整された機械翻訳(MT)メトリクスが、トレーニングと推論の間のドメインシフトに対して堅牢であるかどうかを調べる。微調整されたメトリクスは、表面形状に依存するメトリクスと、MT品質判断に基づいて微調整されていない事前訓練されたメトリクスとに対して、目に見えない領域シナリオにおいて、かなりのパフォーマンス低下を示す。
論文参考訳（メタデータ） (2024-02-28T23:01:24Z)
Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文参考訳（メタデータ） (2022-12-20T14:39:58Z)
EffEval: A Comprehensive Evaluation of Efficiency for MT Evaluation Metrics [21.72262031588122]
MT評価指標の総合評価を行う。 3つのMTデータセットで6つの基準フリーおよび基準ベースメトリクスを評価し,16個の軽量トランスフォーマーについて検討した。
論文参考訳（メタデータ） (2022-09-20T10:12:07Z)
Evaluating natural language processing models with generalization metrics that do not need access to any training or testing data [66.11139091362078]
本稿では,Hugingface から事前学習した大規模トランスフォーマーに対して,一般化指標を用いた最初のモデル選択結果を提案する。ニッチな状況にもかかわらず、ヘビーテール(HT)の観点から派生したメトリクスは、特にNLPタスクにおいて有用である。
論文参考訳（メタデータ） (2022-02-06T20:07:35Z)
Common Metrics to Benchmark Human-Machine Teams (HMT): A Review [1.0323063834827415]
メトリクスは、どんなシステムでもベンチマークを作成できるツールです。 HMTシステムを開発するためのベンチマークのセットは合意されていない。このレビューの主な焦点は、HMTの異なるセグメントで使用されるメトリクスの特定を目的とした詳細な調査を行うことである。
論文参考訳（メタデータ） (2020-08-11T16:57:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。