Fugu-MT 論文翻訳(概要): Evaluating Extremely Low-Resource Machine Translation: A Comparative Study of ChrF++ and BLEU Metrics

論文の概要: Evaluating Extremely Low-Resource Machine Translation: A Comparative Study of ChrF++ and BLEU Metrics

arxiv url: http://arxiv.org/abs/2602.17425v1
Date: Thu, 19 Feb 2026 14:56:42 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-20 15:21:29.107617
Title: Evaluating Extremely Low-Resource Machine Translation: A Comparative Study of ChrF++ and BLEU Metrics
Title（参考訳）: 極低リソース機械翻訳の評価:ChrF++とBLEUメトリックの比較検討
Authors: Sanjeev Kumar, Preethi Jyothi, Pushpak Bhattacharyya,
Abstract要約: 本研究では,n-gram-based metricであるBLEUと,文字-based metricであるChrF++を比較して,EMRL設定におけるMT評価を行う。本研究は,3つのELRL(Magahi,Bhojpuri,Chhattisgarhi)にまたがる幻覚,反復,原文複写,ダイアクリティック(textitmatra)の変化など,各指標が翻訳物にどう反応するかを検討する。最近の研究はChrF++にのみ依存することが多いが、BLEUは絶対スコアが低いにもかかわらず、解釈可能性を改善するための補完的な語彙精度の洞察を提供する。
参考スコア（独自算出の注目度）: 69.2321983942375
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Evaluating machine translation (MT) quality in extremely low-resource language (ELRL) scenarios poses unique challenges, as widely used metrics such as BLEU, effective in high-resource settings, often misrepresent quality in data-scarce contexts. This work presents a comparative analysis of BLEU, an n-gram-based metric, and ChrF++, a character-based metric, for MT evaluation in ELRL settings. We examine how each metric responds to translation artifacts, including hallucinations, repetition, source-text copying, and diacritic (\textit{matra}) variations across three ELRLs: Magahi, Bhojpuri, and Chhattisgarhi, with a focus on outputs from large language models (LLMs) and neural MT (NMT) systems. While recent work often relies solely on ChrF++, our findings show that BLEU, despite its lower absolute scores, provides complementary lexical-precision insights that improve interpretability.
Abstract（参考訳）: 極めて低リソース言語(ELRL)シナリオにおける機械翻訳(MT)の品質を評価することは、BLEUのような広く使われているメトリクスが高リソース設定に有効であり、しばしばデータスカースコンテキストにおける品質を誤って表現しているため、ユニークな課題を引き起こす。本研究では,n-gram-based metricであるBLEUと,文字-based metricであるChrF++を比較して,EMRL設定におけるMT評価を行う。本研究では,大言語モデル (LLMs) とニューラルMT (NMT) システムの出力に着目し,3つのERLL(Magahi, Bhojpuri, Chhattisgarhi) にまたがる幻覚, 反復, ソーステキストコピー, ダイアクリティック(\textit{matra}) の変動など,各指標が翻訳成果物にどのように反応するかを検討する。最近の研究はChrF++にのみ依存することが多いが、BLEUは絶対スコアが低いにもかかわらず、解釈可能性を改善するための補完的な語彙精度の洞察を提供する。

関連論文リスト

Beyond Many-Shot Translation: Scaling In-Context Demonstrations For Low-Resource Machine Translation [49.82863380286994]
In-context Learningは、低リソース機械翻訳にLarge Language Modelsを適用する新しい方法を提供するかもしれない。本研究では,Long-context モデルを用いた数千例のサンプルに対して,数ショット設定以上の低リソース機械翻訳ICLのスケーリングについて検討する。 JavaneseとSundaneseに関する我々の実験は、追加のコンテキストからのゲインがすばやく飽和し、最大コンテキストウィンドウの近くで分解可能であることを示している。
論文参考訳（メタデータ） (2026-02-04T17:02:22Z)
Beyond Literal Mapping: Benchmarking and Improving Non-Literal Translation Evaluation [57.11989521509119]
本稿では,特殊なサブエージェントを起動するリフレクティブコアエージェントを中心に,エージェント翻訳評価フレームワークを提案する。実験の結果、RATEの有効性が示され、現在の測定値と比較して少なくとも3.2メタスコアの改善が達成された。
論文参考訳（メタデータ） (2026-01-12T09:03:42Z)
A Critical Study of Automatic Evaluation in Sign Language Translation [17.083206782232185]
テキストベースのメトリクスが手話変換(SLT)の出力の質を確実に捉えることができるかは、まだ不明である。 BLEU, chrF, ROUGE, BLEURT, G-Eval や GEMBA などの大規模言語モデルに基づく評価器の6つの指標を解析した。
論文参考訳（メタデータ） (2025-10-29T11:57:03Z)
Languages Still Left Behind: Toward a Better Multilingual Machine Translation Benchmark [11.068031181100276]
我々は4つの言語(Asante Twi, Japanese, Jinghpaw, South Azerbaijani)のデータを研究する。真の多言語評価に対するベンチマークの適合性の重大な欠点を明らかにする。我々は、ドメイン汎用および文化的に中立なソーステキストを使用する多言語MTベンチマークを提唱する。
論文参考訳（メタデータ） (2025-08-28T07:52:42Z)
Understanding In-Context Machine Translation for Low-Resource Languages: A Case Study on Manchu [53.437954702561065]
In-context machine translation (MT) with large language model (LLMs) は低リソースMTにおいて有望な手法である。本研究は,辞書,文法書,検索した並列例などの資源の種類が翻訳性能に与える影響を系統的に検討する。結果から,良質な辞書や優れた並列例は有用であり,文法はほとんど役に立たないことが明らかとなった。
論文参考訳（メタデータ） (2025-02-17T14:53:49Z)
Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文参考訳（メタデータ） (2024-02-16T13:53:26Z)
ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文参考訳（メタデータ） (2021-07-30T17:58:54Z)
BLEU might be Guilty but References are not Innocent [34.817010352734]
我々は,参照を収集し,その価値を自動評価で比較するための異なる手法について検討する。典型的参照が多様性に乏しく、翻訳言語を中心にして、パラフレーズ化タスクを開発することに動機づけられた。提案手法は,WMT 2019英語をドイツ語に投稿するだけでなく,バックトランスレーションやAPE拡張MT出力に対しても高い相関性を示す。
論文参考訳（メタデータ） (2020-04-13T16:49:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。