論文の概要: PEGRL: Improving Machine Translation by Post-Editing Guided Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.03352v1
- Date: Tue, 03 Feb 2026 10:22:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.388468
- Title: PEGRL: Improving Machine Translation by Post-Editing Guided Reinforcement Learning
- Title(参考訳): PEGRL: 編集後強化学習による機械翻訳の改善
- Authors: Yunzhi Shen, Hao Zhou, Xin Huang, Xue Han, Junlan Feng, Shujian Huang,
- Abstract要約: textbfPEGRLは、後編集を補助タスクとして用い、トレーニングを安定させ、全体的な最適化を導く2段階のRLフレームワークである。
英語$to$Finnish、英語$to$Turkish、英語$leftrightarrow$ Chineseでの実験は、RLベースラインよりも一貫した利得を示している。
- 参考スコア(独自算出の注目度): 54.19784655270799
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has shown strong promise for LLM-based machine translation, with recent methods such as GRPO demonstrating notable gains; nevertheless, translation-oriented RL remains challenged by noisy learning signals arising from Monte Carlo return estimation, as well as a large trajectory space that favors global exploration over fine-grained local optimization. We introduce \textbf{PEGRL}, a \textit{two-stage} RL framework that uses post-editing as an auxiliary task to stabilize training and guide overall optimization. At each iteration, translation outputs are sampled to construct post-editing inputs, allowing return estimation in the post-editing stage to benefit from conditioning on the current translation behavior, while jointly supporting both global exploration and fine-grained local optimization. A task-specific weighting scheme further balances the contributions of translation and post-editing objectives, yielding a biased yet more sample-efficient estimator. Experiments on English$\to$Finnish, English$\to$Turkish, and English$\leftrightarrow$Chinese show consistent gains over RL baselines, and for English$\to$Turkish, performance on COMET-KIWI is comparable to advanced LLM-based systems (DeepSeek-V3.2).
- Abstract(参考訳): 強化学習 (Reinforcement Learning, RL) は LLM ベースの機械翻訳に強く期待されており、GRPO などの最近の手法は顕著な進歩を見せている。
本稿では、後編集を補助タスクとして用い、トレーニングを安定させ、全体的な最適化を導くためのフレームワークである \textbf{PEGRL} を紹介する。
各イテレーションにおいて、翻訳出力をサンプリングして後編集の入力を構築することで、後編集段階の戻り推定が現在の翻訳動作の条件付けの恩恵を受けると同時に、グローバルな探索ときめ細かい局所最適化の両方を共同でサポートする。
タスク固有の重み付けスキームは、翻訳と後編集の目的の貢献のバランスをさらに保ち、偏りがあるがよりサンプル効率のよい推定器をもたらす。
英語$\to$Finnish、英語$\to$Turkish、英語$\leftrightarrow$ Chineseでの実験では、RLベースラインよりも一貫して向上し、英語$\to$Turkishでは、COMET-KIWIのパフォーマンスは高度なLLMベースのシステム(DeepSeek-V3.2)に匹敵する。
関連論文リスト
- From Utterance to Vividity: Training Expressive Subtitle Translation LLM via Adaptive Local Preference Optimization [12.547838537411215]
ドメインのカスタマイズのニーズを満たす翻訳 LLM の構築方法に焦点をあてる。
我々は、視覚メディアの字幕翻訳をテーマとして、表現力と鮮明な翻訳 LLM の訓練方法を探求する。
論文 参考訳(メタデータ) (2026-02-01T07:24:06Z) - Lost in Literalism: How Supervised Training Shapes Translationese in LLMs [51.04435855143767]
大規模言語モデル(LLM)は機械翻訳において顕著な成功を収めた。
しかし、過度にリテラルと不自然な翻訳を特徴とする翻訳は、依然として永続的な課題である。
我々は、黄金の基準を磨き、不自然なトレーニングインスタンスをフィルタリングするなど、これらのバイアスを軽減する方法を導入する。
論文 参考訳(メタデータ) (2025-03-06T12:14:45Z) - Fine-Grained Reward Optimization for Machine Translation using Error Severity Mappings [25.851419860597407]
本稿では,細粒度でトークンレベルの品質評価と,Reinforcement Learningを用いた誤り重大度レベルを利用した新しい手法を提案する。
我々は,標準エンコーダデコーダと大規模言語モデルに基づく機械翻訳システムを用いて,小型・大規模翻訳データセットの実験を行った。
その結果,トークンレベルの報酬を用いた学習は,自動評価と人的評価の両方に応じて,ベースラインを越えた言語ペア間の翻訳品質を向上させることがわかった。
論文 参考訳(メタデータ) (2024-11-08T21:55:37Z) - TasTe: Teaching Large Language Models to Translate through Self-Reflection [82.83958470745381]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示した。
本稿では,自己回帰を通した翻訳を行うTasTeフレームワークを提案する。
WMT22ベンチマークにおける4つの言語方向の評価結果から,既存の手法と比較して,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-06-12T17:21:21Z) - Building Accurate Translation-Tailored LLMs with Language Aware Instruction Tuning [57.323716555996114]
オフターゲット翻訳は、特に低リソース言語では未解決の問題である。
最近の研究は、翻訳命令の機能を強調するために高度なプロンプト戦略を設計するか、LLMの文脈内学習能力を活用している。
本研究では,LLMの命令追従能力(特に翻訳方向)を向上させるために,2段階の微調整アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-03-21T13:47:40Z) - Unleashing the Power of Pre-trained Language Models for Offline Reinforcement Learning [50.9692060692705]
本稿では、オフラインRL用の決定変換器をベースとした一般的なフレームワークである、$textbfMo$tion Control(textbfLaMo$)のための$textbfLanguage Modelsを紹介する。
私たちのフレームワークは4つの重要なコンポーネントを強調しています。
逐次事前学習したLMを用いた決定変換器の初期化(2)LoRA微細調整法を用いて
特に,本手法は,限られたデータサンプルを持つシナリオにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-31T16:24:17Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。