論文の概要: A Critical Study of Automatic Evaluation in Sign Language Translation
- arxiv url: http://arxiv.org/abs/2510.25434v1
- Date: Wed, 29 Oct 2025 11:57:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:45.495156
- Title: A Critical Study of Automatic Evaluation in Sign Language Translation
- Title(参考訳): 手話翻訳における自動評価の批判的研究
- Authors: Shakib Yazdani, Yasser Hamidullah, Cristina España-Bonet, Eleftherios Avramidis, Josef van Genabith,
- Abstract要約: テキストベースのメトリクスが手話変換(SLT)の出力の質を確実に捉えることができるかは、まだ不明である。
BLEU, chrF, ROUGE, BLEURT, G-Eval や GEMBA などの大規模言語モデルに基づく評価器の6つの指標を解析した。
- 参考スコア(独自算出の注目度): 17.083206782232185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic evaluation metrics are crucial for advancing sign language translation (SLT). Current SLT evaluation metrics, such as BLEU and ROUGE, are only text-based, and it remains unclear to what extent text-based metrics can reliably capture the quality of SLT outputs. To address this gap, we investigate the limitations of text-based SLT evaluation metrics by analyzing six metrics, including BLEU, chrF, and ROUGE, as well as BLEURT on the one hand, and large language model (LLM)-based evaluators such as G-Eval and GEMBA zero-shot direct assessment on the other hand. Specifically, we assess the consistency and robustness of these metrics under three controlled conditions: paraphrasing, hallucinations in model outputs, and variations in sentence length. Our analysis highlights the limitations of lexical overlap metrics and demonstrates that while LLM-based evaluators better capture semantic equivalence often missed by conventional metrics, they can also exhibit bias toward LLM-paraphrased translations. Moreover, although all metrics are able to detect hallucinations, BLEU tends to be overly sensitive, whereas BLEURT and LLM-based evaluators are comparatively lenient toward subtle cases. This motivates the need for multimodal evaluation frameworks that extend beyond text-based metrics to enable a more holistic assessment of SLT outputs.
- Abstract(参考訳): 自動評価指標は手話翻訳(SLT)の進行に不可欠である。
BLEUやROUGEのような現在のSLT評価指標はテキストベースに過ぎず、テキストベースの指標がSLT出力の品質を確実に捉えることができるかは定かではない。
このギャップに対処するために, BLEU, chrF, ROUGE, BLEURT, G-Eval や GEMBA などの大規模言語モデルに基づく評価器の6つの指標を解析し, テキストベース SLT 評価指標の限界について検討した。
具体的には, パラフレーズ, モデル出力における幻覚, 文長の変動の3つの制御条件下で, これらの指標の一貫性と堅牢性を評価する。
我々の分析は語彙重なりの指標の限界を強調し、LLMに基づく評価器は従来の指標では欠落することが多い意味的等価性を捉えるのがよいが、LLMのパラフレッシド翻訳に対するバイアスを示すことも示している。
さらに、すべての指標が幻覚を検出することができるが、BLEUは過度に敏感である傾向にあり、BLEURTとLLMに基づく評価器は比較的微妙なケースに対して寛容である。
これは、SLT出力のより包括的な評価を可能にするために、テキストベースのメトリクスを超えて拡張されるマルチモーダル評価フレームワークの必要性を動機付けている。
関連論文リスト
- DETECT: Determining Ease and Textual Clarity of German Text Simplifications [4.005744004522348]
DETECTは、3次元の単純さ、すなわち保存性、および流布性でATSの品質を均等に評価する最初のドイツ固有の計量である。
テキストの簡易化のために,ドイツ最大の人体評価データセットを構築し,我々の測定値を直接検証する。
論文 参考訳(メタデータ) (2025-10-25T08:20:18Z) - TASER: Translation Assessment via Systematic Evaluation and Reasoning [5.024482993281034]
本稿では,翻訳品質の自動評価にLarge Reasoning Models (LRMs) を用いる指標であるTASER(Translation Assessment via Systematic Evaluation and Reasoning)を紹介する。
Taser は LRM の明示的な推論能力を活用して,翻訳品質の系統的,段階的評価を行う。
Taserは、参照ベースと参照フリーの両方の設定において、最高のソフトなペアワイドの精度を実現し、既存のメトリクスよりも優れています。
論文 参考訳(メタデータ) (2025-09-30T20:27:48Z) - Assessing the Sensitivity and Alignment of FOL Closeness Metrics [10.795521518273214]
既存のNL-, FOL-, グラフベースメトリクスの感度について検討し, サンプルFOLとそれに対応する接地構造との差を捉えた。
メトリクスを組み合わせることで、個々のメトリクスに比べて堅牢性と感度が向上することを示す。
論文 参考訳(メタデータ) (2025-01-15T06:22:35Z) - Towards Understanding the Robustness of LLM-based Evaluations under Perturbations [9.944512689015998]
大言語モデル(LLM)は、要約やダイアログベースのタスクにおいて、非標準化メトリクスの自動評価器として機能する。
人間の判断に比較して,LLMが品質評価指標としていかに優れているかを検討するために,複数のプロンプト戦略にまたがる実験を行った。
論文 参考訳(メタデータ) (2024-12-12T13:31:58Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - MT Metrics Correlate with Human Ratings of Simultaneous Speech
Translation [10.132491257235024]
本研究では,CR(Continuous Ratings)とオフライン機械翻訳評価指標の相関分析を行った。
本研究は,オフラインのメトリクスがCRとよく相関していることを明らかにし,同時に機械翻訳を評価するために確実に使用できることを示した。
SSTの現在の品質レベルを考えると、これらの指標はCRのプロキシとして利用することができ、大規模な人的評価の必要性を軽減することができると結論付けている。
論文 参考訳(メタデータ) (2022-11-16T03:03:56Z) - On the Limitations of Cross-lingual Encoders as Exposed by
Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。
本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。
事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。
参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文 参考訳(メタデータ) (2020-05-03T22:10:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。