論文の概要: Remedy: Learning Machine Translation Evaluation from Human Preferences with Reward Modeling
- arxiv url: http://arxiv.org/abs/2504.13630v1
- Date: Fri, 18 Apr 2025 11:11:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-28 16:02:23.265029
- Title: Remedy: Learning Machine Translation Evaluation from Human Preferences with Reward Modeling
- Title(参考訳): Remedy: Reward Modelingを用いた人間の選好からの機械翻訳評価
- Authors: Shaomu Tan, Christof Monz,
- Abstract要約: 本稿では、報酬モデリングタスクとして翻訳評価を再構成する新しいMTメトリックフレームワークであるReMedyを提案する。
ReMedyは、不完全な人間のレーティングを直接回帰するのではなく、ペアの好みデータを使って相対的な翻訳品質を学習する。
WMT22-24共有タスクの広範な実験において、ReMedyはセグメントレベルの評価とシステムレベルの評価の両方で最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 4.548755617115687
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A key challenge in MT evaluation is the inherent noise and inconsistency of human ratings. Regression-based neural metrics struggle with this noise, while prompting LLMs shows promise at system-level evaluation but performs poorly at segment level. In this work, we propose ReMedy, a novel MT metric framework that reformulates translation evaluation as a reward modeling task. Instead of regressing on imperfect human ratings directly, ReMedy learns relative translation quality using pairwise preference data, resulting in a more reliable evaluation. In extensive experiments across WMT22-24 shared tasks (39 language pairs, 111 MT systems), ReMedy achieves state-of-the-art performance at both segment- and system-level evaluation. Specifically, ReMedy-9B surpasses larger WMT winners and massive closed LLMs such as MetricX-13B, XCOMET-Ensemble, GEMBA-GPT-4, PaLM-540B, and finetuned PaLM2. Further analyses demonstrate that ReMedy delivers superior capability in detecting translation errors and evaluating low-quality translations.
- Abstract(参考訳): MT評価における重要な課題は、人間の評価の固有のノイズと矛盾である。
回帰ベースのニューラルメトリックは、このノイズに苦しむ一方で、LLMのプロンプトは、システムレベルの評価では有望であるが、セグメントレベルでは不十分である。
本稿では、報酬モデリングタスクとして翻訳評価を再構成する新しいMTメトリックフレームワークであるReMedyを提案する。
ReMedyは、不完全な人間のレーティングを直接回帰するのではなく、ペアの選好データを使って相対的な翻訳品質を学習し、より信頼性の高い評価を行う。
WMT22-24の共有タスク(39の言語ペア、111のMTシステム)の広範な実験において、ReMedyはセグメントレベルの評価とシステムレベルの評価の両方で最先端のパフォーマンスを達成する。
具体的には、ReMedy-9B は、MetricX-13B、XCOMET-Ensemble、GEMBA-GPT-4、PaLM-540B、微調整された PaLM2 など、より大きな WMT の勝者と大規模な閉 LLM に勝っている。
さらに分析したところ、ReMedyは翻訳エラーを検出し、低品質の翻訳を評価するのに優れていることがわかった。
関連論文リスト
- Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering [68.3400058037817]
本稿では,TREQA(Translation Evaluation via Question-Answering)について紹介する。
我々は,TREQAが最先端のニューラルネットワークとLLMベースのメトリクスより優れていることを示し,代用段落レベルの翻訳をランク付けする。
論文 参考訳(メタデータ) (2025-04-10T09:24:54Z) - How Good Are LLMs for Literary Translation, Really? Literary Translation Evaluation with Humans and LLMs [23.247387152595067]
LITEVAL-CORPUSは、検証された人間の翻訳と9つの文学機械翻訳システムからの出力を含む並列コーパスである。
複雑度の異なる評価手法の整合性と妥当性について検討する。
総合評価の結果,人文翻訳はLLM翻訳より一貫して優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-10-24T12:48:03Z) - Large Language Models "Ad Referendum": How Good Are They at Machine
Translation in the Legal Domain? [0.0]
本研究では,法域内の4つの言語対にまたがる伝統型ニューラルネットワーク翻訳(NMT)システムに対して,2つの最先端の大規模言語モデル(LLM)の機械翻訳(MT)の品質を評価する。
AEM(Automatic Evaluation met-rics)とHE(Human Evaluation)を専門のトランスラレータで組み合わせて、翻訳ランク、流用度、妥当性を評価する。
論文 参考訳(メタデータ) (2024-02-12T14:40:54Z) - MT-Ranker: Reference-free machine translation evaluation by inter-system
ranking [14.188948302661933]
WMT Shared Metrics Task benchmarks DARR20, MQM20, MQM21。
MT-Rankerは、参照なしおよび参照ベースラインに対する最先端のマークである。
論文 参考訳(メタデータ) (2024-01-30T15:30:03Z) - "Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
本研究は,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sr。
論文 参考訳(メタデータ) (2023-12-18T17:18:04Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - Error Analysis Prompting Enables Human-Like Translation Evaluation in Large Language Models [57.80514758695275]
機械翻訳(MT)の品質を評価するために,大規模言語モデル(LLM)を用いることで,システムレベルでの最先端のパフォーマンスを実現する。
我々はtextbftexttError Analysis Prompting (EAPrompt) と呼ばれる新しいプロンプト手法を提案する。
本手法は,多次元品質指標 (MQM) とtextitproduces を用いて,システムレベルとセグメントレベルの両方で説明可能かつ信頼性の高いMT評価を行う。
論文 参考訳(メタデータ) (2023-03-24T05:05:03Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - HOPE: A Task-Oriented and Human-Centric Evaluation Framework Using
Professional Post-Editing Towards More Effective MT Evaluation [0.0]
本研究では,機械翻訳出力のためのタスク指向・人間中心評価フレームワークHOPEを紹介する。
一般的に発生するエラーの種類は限られており、各翻訳ユニットにエラー重大度レベルを反映する誤差ペナルティポイント(EPP)の幾何学的進行を伴うスコアリングモデルを使用する。
このアプローチには、異なるシステムからの完全なMT出力を測定および比較する能力、品質に対する人間の認識を示す能力、MT出力を高品質にするために必要となる労力の即時見積、低コストで高速なアプリケーション、より高いIRRなど、いくつかの重要な利点がある。
論文 参考訳(メタデータ) (2021-12-27T18:47:43Z) - On the Limitations of Cross-lingual Encoders as Exposed by
Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。
本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。
事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。
参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文 参考訳(メタデータ) (2020-05-03T22:10:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。