論文の概要: Revisiting Metric Reliability for Fine-grained Evaluation of Machine Translation and Summarization in Indian Languages
- arxiv url: http://arxiv.org/abs/2510.07061v1
- Date: Wed, 08 Oct 2025 14:27:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.554435
- Title: Revisiting Metric Reliability for Fine-grained Evaluation of Machine Translation and Summarization in Indian Languages
- Title(参考訳): インド語における機械翻訳と要約のきめ細かい評価のためのメトリクス信頼性の再検討
- Authors: Amir Hossein Yari, Kalmit Kulkarni, Ahmad Raza Khan, Fajri Koto,
- Abstract要約: ITEMは、6つの主要なインドの言語における26の自動測定値と人間の判断値のアライメントを体系的に評価する。
発見は、インドの言語でメートル法設計と評価を進めるための重要なガイダンスを提供する。
- 参考スコア(独自算出の注目度): 13.098470937627871
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While automatic metrics drive progress in Machine Translation (MT) and Text Summarization (TS), existing metrics have been developed and validated almost exclusively for English and other high-resource languages. This narrow focus leaves Indian languages, spoken by over 1.5 billion people, largely overlooked, casting doubt on the universality of current evaluation practices. To address this gap, we introduce ITEM, a large-scale benchmark that systematically evaluates the alignment of 26 automatic metrics with human judgments across six major Indian languages, enriched with fine-grained annotations. Our extensive evaluation, covering agreement with human judgments, sensitivity to outliers, language-specific reliability, inter-metric correlations, and resilience to controlled perturbations, reveals four central findings: (1) LLM-based evaluators show the strongest alignment with human judgments at both segment and system levels; (2) outliers exert a significant impact on metric-human agreement; (3) in TS, metrics are more effective at capturing content fidelity, whereas in MT, they better reflect fluency; and (4) metrics differ in their robustness and sensitivity when subjected to diverse perturbations. Collectively, these findings offer critical guidance for advancing metric design and evaluation in Indian languages.
- Abstract(参考訳): 自動メトリクスは、機械翻訳(MT)とテキスト要約(TS)の進歩を駆動するが、既存のメトリクスは、ほとんど英語や他の高リソース言語向けに開発され、検証されている。
この狭い焦点は15億人以上の人々によって話されるインドの言語を残し、ほとんど見落とされ、現在の評価慣行の普遍性に疑問を投げかけている。
このギャップに対処するために、我々は、26の自動メトリクスと6つの主要なインドの言語における人間の判断を体系的に評価する大規模なベンチマークであるITEMを紹介した。
人間の判断に対する合意, 言語固有の信頼性, 相関関係, 制御摂動に対するレジリエンスの4つの中心的な知見は, 1) LLMに基づく評価器は, セグメントレベルとシステムレベルの両方において, 人間の判断と強い整合性を示す; 2) アウトレーヤは, メートル法と人間の合意に重大な影響を与える; (3) TSでは, メトリクスは, コンテンツの忠実さを捉えるのに有効である; MTでは, 流速を反映し, (4) 多様な摂動を受けるときの堅牢性と感度は, 測定値によって異なる。
これらの知見は、インド語のメートル法設計と評価を進める上で重要な指針となる。
関連論文リスト
- Crosslingual Optimized Metric for Translation Assessment of Indian Languages [3.3904531496305683]
我々は、21の翻訳方向をカバーする13のインドの言語に対して、人間の評価評価データセットを作成する。
次に、このデータセットに基づいて、言語間最適化基準(COMTAIL)というニューラルネットワーク評価指標をトレーニングする。
最高のパフォーマンスのメートル法変種は、少なくとも1つのインド語の翻訳ペアをアジャッジする場合に、過去の最先端技術よりも顕著なパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2025-09-22T12:11:42Z) - Beyond N-Grams: Rethinking Evaluation Metrics and Strategies for Multilingual Abstractive Summarization [13.458891794688551]
我々は,n-gramベースとニューラルベースの両方を生成するための評価指標を評価し,言語やタスク間での有効性を評価する。
本研究は,評価指標の言語タイプに対する感受性を明らかにするものである。
論文 参考訳(メタデータ) (2025-07-11T06:44:52Z) - Guardians of the Machine Translation Meta-Evaluation: Sentinel Metrics Fall In! [80.3129093617928]
毎年、機械翻訳会議(WMT)において、メトリクス共有タスクオーガナイザは、機械翻訳(MT)メトリクスのメタ評価を行う。
この研究は、現在WMTで採用されているメタ評価フレームワークに関する2つの問題を強調し、メトリクスランキングへの影響を評価する。
本稿では,メタ評価プロセスの正確性,堅牢性,公正性を精査するために設計されたセンチネルメトリクスの概念を紹介する。
論文 参考訳(メタデータ) (2024-08-25T13:29:34Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - BLEURT Has Universal Translations: An Analysis of Automatic Metrics by
Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。
BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。
詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文 参考訳(メタデータ) (2023-07-06T16:59:30Z) - IndicMT Eval: A Dataset to Meta-Evaluate Machine Translation metrics for
Indian Languages [25.654787264483183]
5つのインドの言語と7つのMTシステムにまたがる、7000の細かいアノテーションからなるMQMデータセットを作成します。
この結果から,COMETなどの事前学習メトリクスはアノテータスコアと最も高い相関関係があることが示唆された。
これらの指標は,インドの言語におけるフラレンシに基づく誤りを適切に捉えていないことが判明した。
論文 参考訳(メタデータ) (2022-12-20T11:37:22Z) - Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。
本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文 参考訳(メタデータ) (2020-06-11T09:12:53Z) - On the Limitations of Cross-lingual Encoders as Exposed by
Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。
本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。
事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。
参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文 参考訳(メタデータ) (2020-05-03T22:10:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。