Fugu-MT 論文翻訳(概要): Breeding Machine Translations: Evolutionary approach to survive and thrive in the world of automated evaluation

論文の概要: Breeding Machine Translations: Evolutionary approach to survive and thrive in the world of automated evaluation

arxiv url: http://arxiv.org/abs/2305.19330v1
Date: Tue, 30 May 2023 18:00:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-01 20:06:03.419672
Title: Breeding Machine Translations: Evolutionary approach to survive and thrive in the world of automated evaluation
Title（参考訳）: 育種機械翻訳:自動評価の世界における生き残りと繁栄への進化的アプローチ
Authors: Josef Jon and Ond\v{r}ej Bojar
Abstract要約: 本稿では,機械翻訳(MT)システムによって生成されるn-bestリストを遺伝的アルゴリズム(GA)で修正する手法を提案する。本手法はMTの品質向上と評価指標の弱点の同定に革新的な手法を提供する。
参考スコア（独自算出の注目度）: 1.90365714903665
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose a genetic algorithm (GA) based method for modifying n-best lists produced by a machine translation (MT) system. Our method offers an innovative approach to improving MT quality and identifying weaknesses in evaluation metrics. Using common GA operations (mutation and crossover) on a list of hypotheses in combination with a fitness function (an arbitrary MT metric), we obtain novel and diverse outputs with high metric scores. With a combination of multiple MT metrics as the fitness function, the proposed method leads to an increase in translation quality as measured by other held-out automatic metrics. With a single metric (including popular ones such as COMET) as the fitness function, we find blind spots and flaws in the metric. This allows for an automated search for adversarial examples in an arbitrary metric, without prior assumptions on the form of such example. As a demonstration of the method, we create datasets of adversarial examples and use them to show that reference-free COMET is substantially less robust than the reference-based version.
Abstract（参考訳）: 本稿では,機械翻訳(MT)システムで生成したn-bestリストを修正する遺伝的アルゴリズム(GA)を提案する。本手法はMTの品質向上と評価指標の弱点の同定に革新的な手法を提供する。適合関数(任意のMTメートル法)と組み合わせた仮説リスト上でのGA演算(変異と交叉)を用いて、高い測定値を持つ新規で多様な出力を得る。適合度関数として複数のMTメトリクスを組み合わせることで、他の保持された自動メトリクスによって測定された翻訳品質が向上する。フィットネス関数として1つのメートル法(COMETなどの人気メトリックを含む)を用いると、メートル法に盲点と欠陥が見つかる。これにより、そのような例の形式に関する事前の仮定なしで、任意の計量の逆例を自動検索することができる。提案手法の実証として,逆行例のデータセットを作成し,参照フリーcometが参照ベースバージョンよりも大幅にロバストでないことを示す。

関連論文リスト

AutoMetrics: Approximate Human Judgements with Automatically Generated Evaluators [57.003100107659684]
AutoMetricsは、低データ制約下で評価メトリクスを合成するためのフレームワークである。 AutoMetricsは、同等の効果を検証可能な報酬として、プロキシ報酬として使用できることを示す。
論文参考訳（メタデータ） (2025-12-19T06:32:46Z)
Adding Chocolate to Mint: Mitigating Metric Interference in Machine Translation [24.481028155002523]
距離干渉(MINT)は、モデルチューニングと評価の問題を引き起こす。 MINTは、実践者がシステムのパフォーマンスに過度に最適化されていることを誤解させる可能性がある。我々は,MINTに基づくより信頼性の高い評価手法であるMINTADJUSTを提案する。
論文参考訳（メタデータ） (2025-03-11T11:40:10Z)
Beyond Correlation: Interpretable Evaluation of Machine Translation Metrics [46.71836180414362]
本稿では,機械翻訳(MT)メトリクスの解釈可能な評価フレームワークを提案する。このフレームワーク内では、データフィルタリングと翻訳の再ランク付けユースケースのプロキシとして機能する2つのシナリオでメトリクスを評価する。また、DA+SQMガイドラインに従って、手動でキュレートしたデータの信頼性に関する懸念も提起する。
論文参考訳（メタデータ） (2024-10-07T16:42:10Z)
We Need to Talk About Classification Evaluation Metrics in NLP [34.73017509294468]
自然言語処理(NLP)モデルでは、一般化可能性は通常、精度、F-Measure、AUC-ROCといった標準メトリクスで測定される。メトリクスの多様性とそれらのアプリケーションの任意性は、使用すべき最高のメトリックに対して、NLP内に合意がないことを示唆している。ランダムガウス正規化Informednessメトリックがタスク性能の相似ベースラインであることを実証する。
論文参考訳（メタデータ） (2024-01-08T11:40:48Z)
A Study of Unsupervised Evaluation Metrics for Practical and Automatic Domain Adaptation [15.728090002818963]
教師なしドメイン適応(UDA)メソッドは、ラベルなしでターゲットドメインへのモデル転送を容易にする。本稿では,対象の検証ラベルにアクセスすることなく,移動モデルの品質を評価できる評価指標を見つけることを目的とする。
論文参考訳（メタデータ） (2023-08-01T05:01:05Z)
BLEURT Has Universal Translations: An Analysis of Automatic Metrics by Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。 BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文参考訳（メタデータ） (2023-07-06T16:59:30Z)
Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文参考訳（メタデータ） (2022-12-20T14:39:58Z)
SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文参考訳（メタデータ） (2022-08-01T17:58:05Z)
Bidimensional Leaderboards: Generate and Evaluate Language Hand in Hand [117.62186420147563]
リーダーボード, 二次元リーダーボード(ビルボード)の一般化を提案する。従来の一次元のリーダーボードがシステムに所定の基準でソートするのとは異なり、ビルボードはジェネレータと評価指標の両方を競合するエントリとして受け入れる。いくつかの異なるメトリクスの線形アンサンブルが、場合によっては既存のメトリクスを独立して大幅に上回っていることを実証する。
論文参考訳（メタデータ） (2021-12-08T06:34:58Z)
Meta-Generating Deep Attentive Metric for Few-shot Classification [53.07108067253006]
本稿では,新しい数ショット学習タスクのための特定のメトリックを生成するための,新しい深度メタジェネレーション手法を提案する。本研究では,各タスクの識別基準を生成するのに十分なフレキシブルな3層深い注意ネットワークを用いて,メトリクスを構造化する。特に挑戦的なケースでは、最先端の競合他社よりも驚くほどパフォーマンスが向上しています。
論文参考訳（メタデータ） (2020-12-03T02:07:43Z)
Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文参考訳（メタデータ） (2020-06-11T09:12:53Z)
BLEU might be Guilty but References are not Innocent [34.817010352734]
我々は,参照を収集し,その価値を自動評価で比較するための異なる手法について検討する。典型的参照が多様性に乏しく、翻訳言語を中心にして、パラフレーズ化タスクを開発することに動機づけられた。提案手法は,WMT 2019英語をドイツ語に投稿するだけでなく,バックトランスレーションやAPE拡張MT出力に対しても高い相関性を示す。
論文参考訳（メタデータ） (2020-04-13T16:49:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。