論文の概要: Calibrating Translation Decoding with Quality Estimation on LLMs
- arxiv url: http://arxiv.org/abs/2504.19044v1
- Date: Sat, 26 Apr 2025 22:38:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.10606
- Title: Calibrating Translation Decoding with Quality Estimation on LLMs
- Title(参考訳): LLMの品質推定による翻訳復号の校正
- Authors: Di Wu, Yibin Lei, Christof Monz,
- Abstract要約: 本稿では,分布から見た翻訳品質を考慮した仮説のキャリブレーション手法を提案する。
本手法では,大規模言語モデル (LLM) の翻訳は,限られた訓練後に大幅に改善される。
結果として得られた最先端の翻訳モデルは、付随するコードと人間の評価データとともに、10の言語をカバーする。
- 参考スコア(独自算出の注目度): 11.005120269309412
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural machine translation (NMT) systems typically employ maximum a posteriori (MAP) decoding to select the highest-scoring translation from the distribution mass. However, recent evidence highlights the inadequacy of MAP decoding, often resulting in low-quality or even pathological hypotheses -- the decoding objective is not aligned with real-world translation quality. This paper proposes calibrating hypothesis likelihoods with translation quality from a distribution view by directly optimizing their Pearson correlation -- thereby enhancing the effectiveness of translation decoding. With our method, translation on large language models (LLMs) improves substantially after limited training (2K instances per direction). This improvement is orthogonal to those achieved through supervised fine-tuning, leading to substantial gains across a broad range of metrics and human evaluations -- even when applied to top-performing translation-specialized LLMs fine-tuned on high-quality translation data, such as Tower, or when compared to recent preference optimization methods, like CPO. Moreover, the calibrated translation likelihood can directly serve as a strong proxy for translation quality, closely approximating or even surpassing some state-of-the-art translation quality estimation models, like CometKiwi. Lastly, our in-depth analysis demonstrates that calibration enhances the effectiveness of MAP decoding, thereby enabling greater efficiency in real-world deployment. The resulting state-of-the-art translation model, which covers 10 languages, along with the accompanying code and human evaluation data, has been released to the community: https://github.com/moore3930/calibrating-llm-mt.
- Abstract(参考訳): ニューラルマシン翻訳(NMT)システムは通常、最大1つの後部(MAP)デコーディングを使用して、分布質量から最も高いスコアの翻訳を選択する。
しかし、最近の証拠はMAP復号の不十分さを浮き彫りにしており、しばしば低品質や病理学的な仮説がもたらされる。
本稿では,Pearson相関を直接最適化することにより,翻訳品質を考慮した仮説のキャリブレーションを行い,翻訳復号化の有効性を高めることを提案する。
提案手法により,大規模言語モデル(LLM)の翻訳は,限定訓練(方向毎の2Kインスタンス)により大幅に改善される。
この改善は、監督された微調整によって達成されたものに対して直交的であり、広範囲のメトリクスや人的評価 – タワーのような高品質の翻訳データに微調整されたトップパフォーマンスの翻訳特殊化LLMに適用した場合や、CPOのような最近の選好最適化手法と比較しても – に対して、大幅に向上する。
さらに、キャリブレーションされた翻訳の可能性は、翻訳品質の強力なプロキシとして機能し、CometKiwiのような最先端の翻訳品質推定モデルに近づいたり、超えたりすることさえできる。
最後に, キャリブレーションによりMAPデコードの有効性が向上し, 実世界の展開効率が向上することを示す。
10の言語と付随するコードと人間の評価データをカバーする結果の最先端の翻訳モデルがコミュニティにリリースされた。
関連論文リスト
- Fine-Grained Reward Optimization for Machine Translation using Error Severity Mappings [25.851419860597407]
本稿では,細粒度でトークンレベルの品質評価と,Reinforcement Learningを用いた誤り重大度レベルを利用した新しい手法を提案する。
我々は,標準エンコーダデコーダと大規模言語モデルに基づく機械翻訳システムを用いて,小型・大規模翻訳データセットの実験を行った。
その結果,トークンレベルの報酬を用いた学習は,自動評価と人的評価の両方に応じて,ベースラインを越えた言語ペア間の翻訳品質を向上させることがわかった。
論文 参考訳(メタデータ) (2024-11-08T21:55:37Z) - Is Preference Alignment Always the Best Option to Enhance LLM-Based Translation? An Empirical Analysis [20.023077870947024]
本研究ではコントラスト優先最適化(Contrastive Preference Optimization, CPO)に注目し, 翻訳品質に対する嗜好に基づくアライメントの影響を評価する実験を行う。
以上の結果から,CPO はアライメント指標に関して高品質なデータに対して常に Supervised Fine-Tuning (SFT) を上回りながら,下流評価指標間の不安定性をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2024-09-30T08:01:44Z) - Guiding In-Context Learning of LLMs through Quality Estimation for Machine Translation [0.846600473226587]
本稿では、ドメイン固有品質推定(QE)によって導かれる探索アルゴリズムに依存する、文脈内学習(ICL)の新しい手法を提案する。
予備学習言語モデル(PLM)の微調整と比較すると,既存のICL法と翻訳性能は大幅に向上した。
論文 参考訳(メタデータ) (2024-06-12T07:49:36Z) - Building Accurate Translation-Tailored LLMs with Language Aware Instruction Tuning [57.323716555996114]
オフターゲット翻訳は、特に低リソース言語では未解決の問題である。
最近の研究は、翻訳命令の機能を強調するために高度なプロンプト戦略を設計するか、LLMの文脈内学習能力を活用している。
本研究では,LLMの命令追従能力(特に翻訳方向)を向上させるために,2段階の微調整アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-03-21T13:47:40Z) - Advancing Translation Preference Modeling with RLHF: A Step Towards
Cost-Effective Solution [57.42593422091653]
人間のフィードバックによる強化学習の活用による翻訳品質の向上について検討する。
強力な言語能力を持つ報酬モデルは、翻訳品質の微妙な違いをより敏感に学習することができる。
論文 参考訳(メタデータ) (2024-02-18T09:51:49Z) - Quality-Aware Translation Models: Efficient Generation and Quality Estimation in a Single Model [77.19693792957614]
そこで我々は,ニューラルネットワーク翻訳(NMT)モデルを用いて,その品質を学習し,その品質を推定する手法を提案する。
我々は、単一パスの復号化の効率性よりも、品質向上や品質改善のアプローチよりも優れた品質向上を得る。
論文 参考訳(メタデータ) (2023-10-10T15:33:51Z) - Quality-Aware Decoding for Neural Machine Translation [64.24934199944875]
ニューラルネットワーク翻訳(NMT)のための品質認識復号法を提案する。
参照フリーおよび参照ベースMT評価における最近のブレークスルーを,様々な推論手法を用いて活用する。
品質認識復号化は、最先端の自動測定値と人的評価値の両方で、MAPベースの復号化を一貫して上回ります。
論文 参考訳(メタデータ) (2022-05-02T15:26:28Z) - HOPE: A Task-Oriented and Human-Centric Evaluation Framework Using
Professional Post-Editing Towards More Effective MT Evaluation [0.0]
本研究では,機械翻訳出力のためのタスク指向・人間中心評価フレームワークHOPEを紹介する。
一般的に発生するエラーの種類は限られており、各翻訳ユニットにエラー重大度レベルを反映する誤差ペナルティポイント(EPP)の幾何学的進行を伴うスコアリングモデルを使用する。
このアプローチには、異なるシステムからの完全なMT出力を測定および比較する能力、品質に対する人間の認識を示す能力、MT出力を高品質にするために必要となる労力の即時見積、低コストで高速なアプリケーション、より高いIRRなど、いくつかの重要な利点がある。
論文 参考訳(メタデータ) (2021-12-27T18:47:43Z) - Measuring Uncertainty in Translation Quality Evaluation (TQE) [62.997667081978825]
本研究は,翻訳テキストのサンプルサイズに応じて,信頼区間を精度良く推定する動機づけた研究を行う。
我々はベルヌーイ統計分布モデリング (BSDM) とモンテカルロサンプリング分析 (MCSA) の手法を適用した。
論文 参考訳(メタデータ) (2021-11-15T12:09:08Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。