論文の概要: Learning to Translate Ambiguous Terminology by Preference Optimization on Post-Edits
- arxiv url: http://arxiv.org/abs/2507.03580v1
- Date: Fri, 04 Jul 2025 13:49:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.789274
- Title: Learning to Translate Ambiguous Terminology by Preference Optimization on Post-Edits
- Title(参考訳): 編集後の選好最適化による曖昧な用語翻訳の学習
- Authors: Nathaniel Berger, Johannes Eschbach-Dymanus, Miriam Exel, Matthias Huck, Stefan Riezler,
- Abstract要約: 企業的な文脈では、有効だが誤った用語の人間のポストエジットの多くの例が存在する。
我々のアプローチは、好みの知識としてポストエジットという用語を用いて、好みの最適化に基づいている。
我々は,英語とドイツ語の編集後データの結果を報告するとともに,教師付き微調整と選好最適化の最適組み合わせが,COMETスコアにおいて有意な損失を伴わない強いNMTベースラインに対して,項精度の統計的に有意な改善をもたらすことを見出した。
- 参考スコア(独自算出の注目度): 10.580610673031073
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In real world translation scenarios, terminology is rarely one-to-one. Instead, multiple valid translations may appear in a terminology dictionary, but correctness of a translation depends on corporate style guides and context. This can be challenging for neural machine translation (NMT) systems. Luckily, in a corporate context, many examples of human post-edits of valid but incorrect terminology exist. The goal of this work is to learn how to disambiguate our terminology based on these corrections. Our approach is based on preference optimization, using the term post-edit as the knowledge to be preferred. While previous work had to rely on unambiguous translation dictionaries to set hard constraints during decoding, or to add soft constraints in the input, our framework requires neither one-to-one dictionaries nor human intervention at decoding time. We report results on English-German post-edited data and find that the optimal combination of supervised fine-tuning and preference optimization, with both term-specific and full sequence objectives, yields statistically significant improvements in term accuracy over a strong NMT baseline without significant losses in COMET score. Additionally, we release test sets from our post-edited data and terminology dictionary.
- Abstract(参考訳): 現実世界の翻訳のシナリオでは、用語が1対1であることは滅多にない。
代わりに、複数の有効な翻訳が用語辞書に現れることがあるが、翻訳の正確性は企業スタイルのガイドと文脈に依存する。
これは、ニューラルネットワーク翻訳(NMT)システムでは難しい。
幸運なことに、企業的な文脈では、有効だが誤った用語の人間のポストエジットの例が数多く存在する。
この研究の目的は、これらの補正に基づいて、我々の用語を曖昧にする方法を学ぶことである。
我々のアプローチは、好みの知識としてポストエジットという用語を用いて、好みの最適化に基づいている。
以前の作業では、デコード時にハード制約を設定するために、あるいは入力にソフト制約を加えるために、曖昧な翻訳辞書を頼らなければならなかったが、我々のフレームワークは1対1の辞書も、デコード時の人間の介入も必要としなかった。
我々は,英語とドイツ語の編集後データの結果を報告するとともに,教師付き微調整と選好最適化の最適組み合わせが,COMETスコアにおいて有意な損失を伴わない強いNMTベースラインに対して,項精度の統計的に有意な改善をもたらすことを見出した。
さらに、編集後データと用語辞書からテストセットをリリースする。
関連論文リスト
- Terminology-Aware Translation with Constrained Decoding and Large
Language Model Prompting [11.264272119913311]
我々は、WMT 2023用語翻訳タスクを提出する。
私たちは、ドメインに依存しない、最小限の手作業を必要とするトランスレーション-then-refineアプローチを採用しています。
その結果,我々の用語認識モデルは,効率的に用語を組み込むことができることがわかった。
論文 参考訳(メタデータ) (2023-10-09T16:08:23Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - LEAPT: Learning Adaptive Prefix-to-prefix Translation For Simultaneous
Machine Translation [6.411228564798412]
機械翻訳は、多くのライブシナリオで有用であるが、精度とレイテンシのトレードオフのため非常に難しい。
LEAPTと呼ばれる新しい適応型トレーニングポリシーを提案し、それによって機械翻訳モデルがソースプレフィックスの翻訳方法を学習し、将来の文脈を活用することができる。
論文 参考訳(メタデータ) (2023-03-21T11:17:37Z) - DICTDIS: Dictionary Constrained Disambiguation for Improved NMT [50.888881348723295]
我々は辞書から派生した複数の候補翻訳の曖昧さを解消する語彙制約付きNMTシステムであるDictDisを提案する。
我々は、規制、金融、工学を含む様々な分野において、英語・ヒンディー語・英語・ドイツ語文に関する広範な実験を通じて、DictDisの有用性を実証する。
論文 参考訳(メタデータ) (2022-10-13T13:04:16Z) - Rethink about the Word-level Quality Estimation for Machine Translation
from Human Judgement [57.72846454929923]
ベンチマークデータセットであるemphHJQEを作成し、専門家翻訳者が不適切な翻訳語を直接アノテートする。
本稿では,タグリファインメント戦略と木ベースのアノテーション戦略という2つのタグ補正戦略を提案し,TERベースの人工QEコーパスをemphHJQEに近づける。
その結果,提案したデータセットは人間の判断と一致しており,また,提案したタグ補正戦略の有効性も確認できた。
論文 参考訳(メタデータ) (2022-09-13T02:37:12Z) - Data-Driven Adaptive Simultaneous Machine Translation [51.01779863078624]
適応型SimulMTのための新しい,効率的なトレーニング手法を提案する。
本手法は,翻訳の質やレイテンシという点で,全ての強靭なベースラインを上回ります。
論文 参考訳(メタデータ) (2022-04-27T02:40:21Z) - DEEP: DEnoising Entity Pre-training for Neural Machine Translation [123.6686940355937]
機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。
文中の名前付きエンティティ翻訳精度を向上させるために,大量のモノリンガルデータと知識ベースを利用するDenoising Entity Pre-training法であるDEEPを提案する。
論文 参考訳(メタデータ) (2021-11-14T17:28:09Z) - Phrase-level Active Learning for Neural Machine Translation [107.28450614074002]
ドメイン内データの翻訳に所定の予算を費やすことのできる,アクティブな学習環境を提案する。
我々は、人間の翻訳者へのルーティングのために、新しいドメインの未ラベルデータから全文と個々の句を選択する。
ドイツ語と英語の翻訳タスクでは,不確実性に基づく文選択法に対して,能動的学習手法が一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-06-21T19:20:42Z) - Decoding Time Lexical Domain Adaptationfor Neural Machine Translation [7.628949147902029]
特にタスクがリソースが少ない場合、機械翻訳システムはドメインミスマッチに対して脆弱です。
この設定では、翻訳品質を改善するための2つの簡単な方法を紹介します。
論文 参考訳(メタデータ) (2021-01-02T11:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。