Fugu-MT 論文翻訳(概要): BMX: Boosting Machine Translation Metrics with Explainability

論文の概要: BMX: Boosting Machine Translation Metrics with Explainability

arxiv url: http://arxiv.org/abs/2212.10469v1
Date: Tue, 20 Dec 2022 17:41:18 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-21 15:58:15.090517
Title: BMX: Boosting Machine Translation Metrics with Explainability
Title（参考訳）: bmx: 説明可能な機械翻訳メトリクスの強化
Authors: Christoph Leiter, Hoa Nguyen, Steffen Eger
Abstract要約: 最先端の機械翻訳評価指標はブラックボックス言語モデルに基づいている。メトリクスのパフォーマンスを高めるために、説明を明示的に活用しています。いくつかの構成は、人間の判断と元のメトリクスの相関性を確実に改善する。
参考スコア（独自算出の注目度）: 22.28460545378322
License: http://creativecommons.org/licenses/by/4.0/
Abstract: State-of-the-art machine translation evaluation metrics are based on black-box language models. Hence, recent works consider their explainability with the goals of better understandability for humans and better metric analysis, including failure cases. In contrast, we explicitly leverage explanations to boost the metrics' performance. In particular, we perceive explanations as word-level scores, which we convert, via power means, into sentence-level scores. We combine this sentence-level score with the original metric to obtain a better metric. Our extensive evaluation and analysis across 5 datasets, 5 metrics and 4 explainability techniques shows that some configurations reliably improve the original metrics' correlation with human judgment. On two held datasets for testing, we obtain improvements in 15/18 resp. 4/4 cases. The gains in Pearson correlation are up to 0.032 resp. 0.055. We make our code available.
Abstract（参考訳）: 最先端の機械翻訳評価指標はブラックボックス言語モデルに基づいている。したがって、最近の研究では、人間の理解力の向上と、失敗事例を含むメトリクス分析の改善という目標により、その説明可能性を検討している。対照的に、私たちはメトリクスのパフォーマンスを高めるために説明を明示的に活用します。特に、単語レベルのスコアとして説明を知覚し、パワー手段によって文レベルのスコアに変換する。この文レベルのスコアと元のメトリックを組み合わせて、より良いメトリックを得る。 5つのデータセット、5つのメトリクス、4つの説明可能性技術にわたる広範な評価と分析により、いくつかの設定が、人間の判断と元のメトリクスの相関性を確実に改善することを示している。テスト用に保持された2つのデータセットで、15/18 respの改善を得た。 4/4例であった。ピアソン相関の利得は0.032 respである。 0.055. コードを利用可能にします。

関連論文リスト

Beyond Literal Mapping: Benchmarking and Improving Non-Literal Translation Evaluation [57.11989521509119]
本稿では,特殊なサブエージェントを起動するリフレクティブコアエージェントを中心に,エージェント翻訳評価フレームワークを提案する。実験の結果、RATEの有効性が示され、現在の測定値と比較して少なくとも3.2メタスコアの改善が達成された。
論文参考訳（メタデータ） (2026-01-12T09:03:42Z)
Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。本稿では,基準自由度に欠陥があるかどうかを考察する。 GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文参考訳（メタデータ） (2024-02-18T12:36:23Z)
Machine Translation Meta Evaluation through Translation Accuracy Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文参考訳（メタデータ） (2024-01-29T17:17:42Z)
Towards Multiple References Era -- Addressing Data Leakage and Limited Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文参考訳（メタデータ） (2023-08-06T14:49:26Z)
BLEURT Has Universal Translations: An Analysis of Automatic Metrics by Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。 BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文参考訳（メタデータ） (2023-07-06T16:59:30Z)
The Inside Story: Towards Better Understanding of Machine Translation Neural Evaluation Metrics [8.432864879027724]
我々は、いくつかの神経説明可能性法を開発し比較し、最先端の微調整ニューラルネットワークメトリクスの解釈の有効性を実証する。本研究は,これらのメトリクスが,翻訳誤りに直接起因するトークンレベルの情報を活用することを明らかにした。
論文参考訳（メタデータ） (2023-05-19T16:42:17Z)
Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文参考訳（メタデータ） (2022-12-20T14:39:58Z)
DEMETR: Diagnosing Evaluation Metrics for Translation [21.25704103403547]
我々は、英語31K例の診断データセットであるDEMETRをリリースする。学習指標はDEMETRの文字列ベースの指標よりもかなり優れていることがわかった。
論文参考訳（メタデータ） (2022-10-25T03:25:44Z)
MENLI: Robust Evaluation Metrics from Natural Language Inference [26.53850343633923]
最近提案されたBERTベースのテキスト生成評価指標は、標準ベンチマークでは良好に機能するが、敵攻撃には弱い。自然言語推論(NLI)に基づく評価指標を開発する。我々のNLIベースのメトリクスは、最近のBERTベースのメトリクスよりも攻撃に対してより堅牢であることを示す。
論文参考訳（メタデータ） (2022-08-15T16:30:14Z)
SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文参考訳（メタデータ） (2022-08-01T17:58:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。