論文の概要: TransEvalnia: Reasoning-based Evaluation and Ranking of Translations
- arxiv url: http://arxiv.org/abs/2507.12724v1
- Date: Thu, 17 Jul 2025 02:02:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.31792
- Title: TransEvalnia: Reasoning-based Evaluation and Ranking of Translations
- Title(参考訳): TransEvalnia: 推論に基づく翻訳の評価とランク付け
- Authors: Richard Sproat, Tianyu Zhao, Llion Jones,
- Abstract要約: 提案するTransEvalniaは,その評価とランク付けを行う上で,推論を用いたプロンプトベースの翻訳評価とランキングシステムである。
TransEvalniaは、我々の英語と日本語のデータに基づいて、最先端のMT-Rankerよりも優れていることを示す。
また, MT-Rankerと同様に, 翻訳の順序に対するシステムの感度についても言及し, この位置バイアスに対処する手法を提案する。
- 参考スコア(独自算出の注目度): 10.036450974576745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present TransEvalnia, a prompting-based translation evaluation and ranking system that uses reasoning in performing its evaluations and ranking. This system presents fine-grained evaluations based on a subset of the Multidimensional Quality Metrics (https://themqm.org/), returns an assessment of which translation it deems the best, and provides numerical scores for the various dimensions and for the overall translation. We show that TransEvalnia performs as well as or better than the state-of-the-art MT-Ranker (Moosa et al. 2024) on our own English-Japanese data as well as several language pairs from various WMT shared tasks. Using Anthropic's Claude-3.5-Sonnet and Qwen-2.5-72B-Instruct as the evaluation LLMs, we show that the evaluations returned are deemed highly acceptable to human raters, and that the scores assigned to the translations by Sonnet, as well as other LLMs, correlate well with scores assigned by the human raters. We also note the sensitivity of our system -- as well as MT-Ranker -- to the order in which the translations are presented, and we propose methods to address this position bias. All data, including the system's evaluation and reasoning, human assessments, as well as code is released.
- Abstract(参考訳): 提案するTransEvalniaは,その評価とランク付けを行う上で,推論を用いたプロンプトベースの翻訳評価とランキングシステムである。
本システムでは,多次元品質指標(https://themqm.org/)のサブセットに基づいて細粒度評価を行い,どの翻訳が最良とみなすかの評価を返却し,様々な次元と全体的な翻訳のための数値スコアを提供する。
我々は,トランスエクアニアが,我々の英語・日本語データにおけるMT-Ranker(Moosa et al 2024)や,様々なWMT共有タスクの言語ペアよりも優れていることを示す。
Anthropic's Claude-3.5-Sonnet and Qwen-2.5-72B-Instruct as the evaluation LLMs, we showed that the evaluations are highly accept to human raters, and the scores assigned to the translations, as other LLMs, and well correlation with the scores by the human raters。
また, MT-Rankerと同様に, 翻訳の順序に対するシステムの感度についても言及し, この位置バイアスに対処する手法を提案する。
システムの評価と推論、人的評価、およびコードを含むすべてのデータがリリースされる。
関連論文リスト
- Remedy: Learning Machine Translation Evaluation from Human Preferences with Reward Modeling [4.548755617115687]
本稿では、報酬モデリングタスクとして翻訳評価を再構成する新しいMTメトリックフレームワークであるReMedyを提案する。
ReMedyは、不完全な人間のレーティングを直接回帰するのではなく、ペアの好みデータを使って相対的な翻訳品質を学習する。
WMT22-24共有タスクの広範な実験において、ReMedyはセグメントレベルの評価とシステムレベルの評価の両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-04-18T11:11:14Z) - Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering [68.3400058037817]
本稿では,TREQA(Translation Evaluation via Question-Answering)について紹介する。
我々は,TREQAが最先端のニューラルネットワークとLLMベースのメトリクスより優れていることを示し,代用段落レベルの翻訳をランク付けする。
論文 参考訳(メタデータ) (2025-04-10T09:24:54Z) - How Good Are LLMs for Literary Translation, Really? Literary Translation Evaluation with Humans and LLMs [23.247387152595067]
LITEVAL-CORPUSは、検証された人間の翻訳と9つの文学機械翻訳システムからの出力を含む並列コーパスである。
複雑度の異なる評価手法の整合性と妥当性について検討する。
総合評価の結果,人文翻訳はLLM翻訳より一貫して優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-10-24T12:48:03Z) - Guardians of the Machine Translation Meta-Evaluation: Sentinel Metrics Fall In! [80.3129093617928]
毎年、機械翻訳会議(WMT)において、メトリクス共有タスクオーガナイザは、機械翻訳(MT)メトリクスのメタ評価を行う。
この研究は、現在WMTで採用されているメタ評価フレームワークに関する2つの問題を強調し、メトリクスランキングへの影響を評価する。
本稿では,メタ評価プロセスの正確性,堅牢性,公正性を精査するために設計されたセンチネルメトリクスの概念を紹介する。
論文 参考訳(メタデータ) (2024-08-25T13:29:34Z) - BiVert: Bidirectional Vocabulary Evaluation using Relations for Machine
Translation [4.651581292181871]
本稿では,テキストから翻訳の感覚距離を評価するための双方向意味に基づく評価手法を提案する。
このアプローチでは、包括的な多言語百科事典BabelNetを用いる。
Factual analysis is a strong correlation between the average evaluations generated by our method and the human evaluations across various machine translation system for English- German language pair。
論文 参考訳(メタデータ) (2024-03-06T08:02:21Z) - Large Language Models "Ad Referendum": How Good Are They at Machine
Translation in the Legal Domain? [0.0]
本研究では,法域内の4つの言語対にまたがる伝統型ニューラルネットワーク翻訳(NMT)システムに対して,2つの最先端の大規模言語モデル(LLM)の機械翻訳(MT)の品質を評価する。
AEM(Automatic Evaluation met-rics)とHE(Human Evaluation)を専門のトランスラレータで組み合わせて、翻訳ランク、流用度、妥当性を評価する。
論文 参考訳(メタデータ) (2024-02-12T14:40:54Z) - MT-Ranker: Reference-free machine translation evaluation by inter-system
ranking [14.188948302661933]
WMT Shared Metrics Task benchmarks DARR20, MQM20, MQM21。
MT-Rankerは、参照なしおよび参照ベースラインに対する最先端のマークである。
論文 参考訳(メタデータ) (2024-01-30T15:30:03Z) - SEAHORSE: A Multilingual, Multifaceted Dataset for Summarization
Evaluation [52.186343500576214]
本稿では,多言語・多面的要約評価のためのデータセットSEAHORSEを紹介する。
SEAHORSEは、テキスト品質の6次元に沿って人間格付けされた96Kの要約で構成されている。
本稿では,SEAHORSEでトレーニングしたメトリクスが,ドメイン外メタ評価ベンチマークTRUEとmFACEで高い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-05-22T16:25:07Z) - FRMT: A Benchmark for Few-Shot Region-Aware Machine Translation [64.9546787488337]
本稿では、Few-shot Region-aware Machine Translationのための新しいデータセットと評価ベンチマークFRMTを提案する。
このデータセットは、英語からポルトガル語と中国語の2つの地域変種へのプロの翻訳で構成されている。
論文 参考訳(メタデータ) (2022-10-01T05:02:04Z) - Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。
本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文 参考訳(メタデータ) (2020-06-11T09:12:53Z) - On the Limitations of Cross-lingual Encoders as Exposed by
Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。
本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。
事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。
参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文 参考訳(メタデータ) (2020-05-03T22:10:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。