論文の概要: Hacking Neural Evaluation Metrics with Single Hub Text
- arxiv url: http://arxiv.org/abs/2512.16323v1
- Date: Thu, 18 Dec 2025 09:06:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.994317
- Title: Hacking Neural Evaluation Metrics with Single Hub Text
- Title(参考訳): 単一ハブテキストによるニューラルネットワーク評価メトリクスのハック
- Authors: Hiroyuki Deguchi, Katsuki Chousa, Yusuke Sakai,
- Abstract要約: 本稿では,高品質と評価される離散空間における単一の逆文を見つける方法を提案する。
WMT'24英日訳(En-Ja)と英独訳(En-De)でそれぞれ79.1COMET%と67.8COMET%を達成する。
また,本手法で得られたハブテキストが, Ja-En や De-En といった複数の言語ペアにまたがって一般化されることを確認した。
- 参考スコア(独自算出の注目度): 6.572810068286891
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Strongly human-correlated evaluation metrics serve as an essential compass for the development and improvement of generation models and must be highly reliable and robust. Recent embedding-based neural text evaluation metrics, such as COMET for translation tasks, are widely used in both research and development fields. However, there is no guarantee that they yield reliable evaluation results due to the black-box nature of neural networks. To raise concerns about the reliability and safety of such metrics, we propose a method for finding a single adversarial text in the discrete space that is consistently evaluated as high-quality, regardless of the test cases, to identify the vulnerabilities in evaluation metrics. The single hub text found with our method achieved 79.1 COMET% and 67.8 COMET% in the WMT'24 English-to-Japanese (En--Ja) and English-to-German (En--De) translation tasks, respectively, outperforming translations generated individually for each source sentence by using M2M100, a general translation model. Furthermore, we also confirmed that the hub text found with our method generalizes across multiple language pairs such as Ja--En and De--En.
- Abstract(参考訳): 強い人間関連評価指標は、世代モデルの開発と改善に不可欠なコンパスであり、信頼性が高く、堅牢でなければならない。
近年の組込み型ニューラルテキスト評価尺度(COMETなど)は,研究と開発の両方で広く利用されている。
しかし、ニューラルネットワークのブラックボックスの性質のため、信頼性の高い評価結果が得られるという保証はない。
このような指標の信頼性と安全性に関する懸念を高めるため,評価指標の脆弱性を特定するために,テストケースによらず,一貫した高品質として評価される離散空間において,単一の逆テキストを見つける手法を提案する。
また,本手法で検出した1つのハブテキストは,一般的な翻訳モデルであるM2M100を用いて各ソース文に対して個別に生成された翻訳結果よりも,WMT'24英語-日本語(En-Ja)および英語-ドイツ語(En-De)翻訳タスクにおいて79.1 COMET%と67.8 COMET%を達成した。
関連論文リスト
- How to Evaluate Speech Translation with Source-Aware Neural MT Metrics [32.41110835446445]
機械翻訳において、原文を組み込んだ神経メトリクスは、人間の判断と強い相関関係を得る。
本研究は,音声からテキストへの翻訳におけるソース・アウェア・メトリクスの体系的研究である。
本稿では,合成源と参照翻訳のアライメントミスマッチに対処するため,新たな2段階の言語間再分割アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-11-05T08:49:22Z) - Revisiting Metric Reliability for Fine-grained Evaluation of Machine Translation and Summarization in Indian Languages [13.098470937627871]
ITEMは、6つの主要なインドの言語における26の自動測定値と人間の判断値のアライメントを体系的に評価する。
発見は、インドの言語でメートル法設計と評価を進めるための重要なガイダンスを提供する。
論文 参考訳(メタデータ) (2025-10-08T14:27:02Z) - Languages Still Left Behind: Toward a Better Multilingual Machine Translation Benchmark [11.068031181100276]
我々は4つの言語(Asante Twi, Japanese, Jinghpaw, South Azerbaijani)のデータを研究する。
真の多言語評価に対するベンチマークの適合性の重大な欠点を明らかにする。
我々は、ドメイン汎用および文化的に中立なソーステキストを使用する多言語MTベンチマークを提唱する。
論文 参考訳(メタデータ) (2025-08-28T07:52:42Z) - BLEURT Has Universal Translations: An Analysis of Automatic Metrics by
Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。
BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。
詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文 参考訳(メタデータ) (2023-07-06T16:59:30Z) - Competency-Aware Neural Machine Translation: Can Machine Translation
Know its Own Translation Quality? [61.866103154161884]
ニューラルマシン翻訳(NMT)は、意識せずに起こる失敗に対してしばしば批判される。
本稿では,従来のNMTを自己推定器で拡張することで,新たな能力認識型NMTを提案する。
提案手法は品質評価において優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2022-11-25T02:39:41Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Understanding and Mitigating the Uncertainty in Zero-Shot Translation [92.25357943169601]
ゼロショット翻訳の不確実性の観点から、オフターゲット問題を理解し、緩和することを目的としている。
そこで本研究では,モデルトレーニングのためのトレーニングデータを認知するための,軽量かつ補完的な2つのアプローチを提案する。
提案手法は,強いMNMTベースライン上でのゼロショット翻訳の性能を著しく向上させる。
論文 参考訳(メタデータ) (2022-05-20T10:29:46Z) - NMTScore: A Multilingual Analysis of Translation-based Text Similarity
Measures [42.46681912294797]
我々は多言語NMTの共通フレームワークにおける翻訳に基づく類似度尺度を解析する。
文の埋め込みなどのベースラインと比較して、翻訳に基づく尺度はパラフレーズの識別において競争力があることが証明されている。
措置は人間の判断と相対的に高い相関を示す。
論文 参考訳(メタデータ) (2022-04-28T17:57:17Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。