論文の概要: Remedy-R: Generative Reasoning for Machine Translation Evaluation without Error Annotations
- arxiv url: http://arxiv.org/abs/2512.18906v1
- Date: Sun, 21 Dec 2025 22:37:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.551119
- Title: Remedy-R: Generative Reasoning for Machine Translation Evaluation without Error Annotations
- Title(参考訳): Remedy-R: エラーアノテーションのない機械翻訳評価のための生成推論
- Authors: Shaomu Tan, Ryosuke Mitani, Ritvik Choudhary, Qiyu Wu, Toshiyuki Sekiya, Christof Monz,
- Abstract要約: Remedy-Rは、ペアの翻訳嗜好から強化学習を訓練した推論駆動MT測度である。
Remedy-Rは、精度、流速、完全性のステップバイステップ分析を生成し、次いで最終的なスコアを出力する。
本稿では、Remedy-Rの評価分析を利用して翻訳を洗練するシンプルな評価修正パイプラインであるRemedy-R Agentを紹介する。
- 参考スコア(独自算出の注目度): 15.705486646203385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over the years, automatic MT metrics have hillclimbed benchmarks and presented strong and sometimes human-level agreement with human ratings. Yet they remain black-box, offering little insight into their decision-making and often failing under real-world out-of-distribution (OOD) inputs. We introduce Remedy-R, a reasoning-driven generative MT metric trained with reinforcement learning from pairwise translation preferences, without requiring error-span annotations or distillation from closed LLMs. Remedy-R produces step-by-step analyses of accuracy, fluency, and completeness, followed by a final score, enabling more interpretable assessments. With only 60K training pairs across two language pairs, Remedy-R remains competitive with top scalar metrics and GPT-4-based judges on WMT22-24 meta-evaluation, generalizes to other languages, and exhibits strong robustness on OOD stress tests. Moreover, Remedy-R models generate self-reflective feedback that can be reused for translation improvement. Building on this finding, we introduce Remedy-R Agent, a simple evaluate-revise pipeline that leverages Remedy-R's evaluation analysis to refine translations. This agent consistently improves translation quality across diverse models, including Qwen2.5, ALMA-R, GPT-4o-mini, and Gemini-2.0-Flash, suggesting that Remedy-R's reasoning captures translation-relevant information and is practically useful.
- Abstract(参考訳): 長年にわたり、自動MTの指標は、人的評価と強い、時には人間レベルの一致を示してきた。
しかし、彼らはブラックボックスに留まり、意思決定に関する洞察はほとんど得られず、現実世界のアウト・オブ・ディストリビューション(OOD)のインプットの下で失敗することが多い。
Remedy-Rは,LLMの誤りや蒸留を必要とせず,一対の翻訳嗜好から強化学習を訓練した推論駆動型MT法である。
Remedy-Rは、精度、流布度、完全性のステップバイステップの分析を行い、続いて最終的なスコアを生成し、より解釈可能な評価を可能にする。
2つの言語ペアで60Kのトレーニングペアしか持たないRemedy-Rは、トップスカラーメトリックと、WMT22-24メタ評価に関するGPT-4ベースの審査員との競争を継続し、他の言語に一般化し、OODストレステストに強い堅牢性を示す。
さらに、Remedy-Rモデルは、翻訳改善のために再利用可能な自己反射フィードバックを生成する。
この発見に基づいて、Remedy-Rの評価分析を利用して翻訳を洗練するシンプルな評価修正パイプラインであるRemedy-R Agentを紹介した。
このエージェントは、Qwen2.5, ALMA-R, GPT-4o-mini, Gemini-2.0-Flashなどの多種多様なモデルの翻訳品質を継続的に改善し、Remedy-Rの推論が翻訳関連情報をキャプチャし、実用的に有用であることを示唆している。
関連論文リスト
- Remedy: Learning Machine Translation Evaluation from Human Preferences with Reward Modeling [4.548755617115687]
本稿では、報酬モデリングタスクとして翻訳評価を再構成する新しいMTメトリックフレームワークであるReMedyを提案する。
ReMedyは、不完全な人間のレーティングを直接回帰するのではなく、ペアの好みデータを使って相対的な翻訳品質を学習する。
WMT22-24共有タスクの広範な実験において、ReMedyはセグメントレベルの評価とシステムレベルの評価の両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-04-18T11:11:14Z) - MQM-APE: Toward High-Quality Error Annotation Predictors with Automatic Post-Editing in LLM Translation Evaluators [53.91199933655421]
大規模言語モデル(LLM)は、機械翻訳(MT)の品質評価の裁判官として大きな可能性を秘めている。
非インパクト的なエラーをフィルタリングするアイデアに基づいて、ユニバーサルでトレーニング不要なフレームワークである$textbfMQM-APEを紹介します。
実験の結果,GEMBA-MQMに対する誤差の信頼性と品質の両方が一貫して改善されていることがわかった。
論文 参考訳(メタデータ) (2024-09-22T06:43:40Z) - MT-Ranker: Reference-free machine translation evaluation by inter-system
ranking [14.188948302661933]
WMT Shared Metrics Task benchmarks DARR20, MQM20, MQM21。
MT-Rankerは、参照なしおよび参照ベースラインに対する最先端のマークである。
論文 参考訳(メタデータ) (2024-01-30T15:30:03Z) - BLEURT Has Universal Translations: An Analysis of Automatic Metrics by
Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。
BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。
詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文 参考訳(メタデータ) (2023-07-06T16:59:30Z) - Error Analysis Prompting Enables Human-Like Translation Evaluation in Large Language Models [57.80514758695275]
機械翻訳(MT)の品質を評価するために,大規模言語モデル(LLM)を用いることで,システムレベルでの最先端のパフォーマンスを実現する。
我々はtextbftexttError Analysis Prompting (EAPrompt) と呼ばれる新しいプロンプト手法を提案する。
本手法は,多次元品質指標 (MQM) とtextitproduces を用いて,システムレベルとセグメントレベルの両方で説明可能かつ信頼性の高いMT評価を行う。
論文 参考訳(メタデータ) (2023-03-24T05:05:03Z) - Rethinking Round-Trip Translation for Machine Translation Evaluation [44.83568796515321]
ラウンドトリップ翻訳が参照なしで自動評価に利用できるという驚くべき発見を報告する。
ラウンドトリップ翻訳が複数の機械翻訳評価タスクに有用であることを示す。
論文 参考訳(メタデータ) (2022-09-15T15:06:20Z) - HOPE: A Task-Oriented and Human-Centric Evaluation Framework Using
Professional Post-Editing Towards More Effective MT Evaluation [0.0]
本研究では,機械翻訳出力のためのタスク指向・人間中心評価フレームワークHOPEを紹介する。
一般的に発生するエラーの種類は限られており、各翻訳ユニットにエラー重大度レベルを反映する誤差ペナルティポイント(EPP)の幾何学的進行を伴うスコアリングモデルを使用する。
このアプローチには、異なるシステムからの完全なMT出力を測定および比較する能力、品質に対する人間の認識を示す能力、MT出力を高品質にするために必要となる労力の即時見積、低コストで高速なアプリケーション、より高いIRRなど、いくつかの重要な利点がある。
論文 参考訳(メタデータ) (2021-12-27T18:47:43Z) - On the Limitations of Cross-lingual Encoders as Exposed by
Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。
本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。
事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。
参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文 参考訳(メタデータ) (2020-05-03T22:10:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。