論文の概要: Deep Reasoning Translation via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2504.10187v1
- Date: Mon, 14 Apr 2025 12:40:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:55:11.499383
- Title: Deep Reasoning Translation via Reinforcement Learning
- Title(参考訳): 強化学習による深層推論翻訳
- Authors: Jiaan Wang, Fandong Meng, Jie Zhou,
- Abstract要約: 我々は、強化学習を通して自由翻訳を学ぶ深層推論翻訳モデルDeepTransを紹介する。
原文が与えられた場合、報酬モデルは、強化学習中にそれらを思考し、自由に翻訳する方法を深層翻訳モデルに教える。
実験の結果,DeepTransは文学翻訳における性能を16.3%向上させることがわかった。
- 参考スコア(独自算出の注目度): 77.41383117199227
- License:
- Abstract: Recently, deep reasoning LLMs (e.g., OpenAI o1/o3 and DeepSeek-R1) have shown promising performance in various complex tasks. Free translation is an important and interesting task in the multilingual world, which requires going beyond word-for-word translation and taking cultural differences into account. This task is still under-explored in deep reasoning LLMs. In this paper, we introduce DeepTrans, a deep reasoning translation model that learns free translation via reinforcement learning. Specifically, we carefully build a reward model with pre-defined scoring criteria on both the translation results and the thought process. Given the source sentences, the reward model teaches the deep translation model how to think and free-translate them during reinforcement learning. In this way, training DeepTrans does not need any labeled translations, avoiding the human-intensive annotation or resource-intensive data synthesis. Experimental results show the effectiveness of DeepTrans. Using Qwen2.5-7B as the backbone, DeepTrans improves performance by 16.3% in literature translation, and outperforms strong deep reasoning baselines as well as baselines that are fine-tuned with synthesized data. Moreover, we summarize the failures and interesting findings during our RL exploration. We hope this work could inspire other researchers in free translation.
- Abstract(参考訳): 近年,LLM(例えば OpenAI o1/o3 や DeepSeek-R1)は,様々な複雑なタスクにおいて有望な性能を示している。
自由翻訳は多言語世界において重要かつ興味深い課題であり、語句翻訳を超えて文化的な違いを考慮する必要がある。
この課題はいまだにLLMの深い推論において過小評価されている。
本稿では,強化学習による自由翻訳を学習する深層推論翻訳モデルであるDeepTransを紹介する。
具体的には、翻訳結果と思考過程の双方について、事前に決められた評価基準を持つ報酬モデルを構築する。
原文が与えられた場合、報酬モデルは、強化学習中にそれらを思考し、自由に翻訳する方法を深層翻訳モデルに教える。
このように、DeepTransのトレーニングにはラベル付き翻訳は必要ない。
実験の結果,DeepTransの有効性が示された。
Qwen2.5-7Bをバックボーンとして使用することにより、DeepTransは文学翻訳における性能を16.3%向上させ、強力な深い推論ベースラインと、合成データで微調整されたベースラインを上回っている。
さらに,RL探査における失敗と興味深い発見を要約した。
この研究が、他の研究者に無償翻訳を刺激することを期待している。
関連論文リスト
- DRT: Deep Reasoning Translation via Long Chain-of-Thought [89.48208612476068]
本稿では,長いCoTをニューラルネットワーク翻訳(MT)に適用する試みであるDRTを紹介する。
まず、既存の文献から模範文や比喩文を含む文を抽出し、その後、長い思考を通してこれらの文を翻訳する多エージェントフレームワークを開発する。
Qwen2.5とLLama-3.1をバックボーンとして使用することで、DRTモデルは機械翻訳中に思考プロセスを学ぶことができる。
論文 参考訳(メタデータ) (2024-12-23T11:55:33Z) - Multi-perspective Alignment for Increasing Naturalness in Neural Machine Translation [11.875491080062233]
ニューラルマシン翻訳(NMT)システムは、トレーニングデータに存在する語彙バイアスを増幅し、出力翻訳において人工的に不十分な言語を生み出す。
自然とコンテンツ保存の両方に報いる新しい方法を提案する。
本手法は英蘭文翻訳において評価され,翻訳精度を損なうことなく,語彙的に豊かで,人文言語の性質が向上する翻訳モデルが得られた。
論文 参考訳(メタデータ) (2024-12-11T15:42:22Z) - TasTe: Teaching Large Language Models to Translate through Self-Reflection [82.83958470745381]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示した。
本稿では,自己回帰を通した翻訳を行うTasTeフレームワークを提案する。
WMT22ベンチマークにおける4つの言語方向の評価結果から,既存の手法と比較して,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-06-12T17:21:21Z) - Contextual Refinement of Translations: Large Language Models for Sentence and Document-Level Post-Editing [12.843274390224853]
大規模言語モデル(LLM)は、様々な自然言語処理タスクでかなりの成功を収めている。
ニューラルネットワーク翻訳における最先端性能は,まだ達成できていない。
直接翻訳者ではなく,自動編集者 (APE) としてLLMを適用することを提案する。
論文 参考訳(メタデータ) (2023-10-23T12:22:15Z) - Crossing the Threshold: Idiomatic Machine Translation through Retrieval
Augmentation and Loss Weighting [66.02718577386426]
慣用的な翻訳と関連する問題を簡易に評価する。
我々は,変圧器をベースとした機械翻訳モデルが慣用的な翻訳に対して正しくデフォルトとなる点を明らかにするための合成実験を行った。
自然慣用句の翻訳を改善するために, 単純かつ効果的な2つの手法を導入する。
論文 参考訳(メタデータ) (2023-10-10T23:47:25Z) - Towards Debiasing Translation Artifacts [15.991970288297443]
確立されたバイアス除去手法を拡張して,翻訳文の削減のための新しい手法を提案する。
我々は、反復的ヌル空間投影(INLP)アルゴリズムを用いて、デバイアス前後の分類精度を計測することにより、文レベルと単語レベルの両方で翻訳文が削減されることを示す。
我々の知る限りでは、これは潜伏埋め込み空間で表現される翻訳語をデビアスする最初の研究である。
論文 参考訳(メタデータ) (2022-05-16T21:46:51Z) - Progressive Multi-Granularity Training for Non-Autoregressive
Translation [98.11249019844281]
非自己回帰翻訳(NAT)は、ターゲットシーケンス全体を予測することで推論プロセスを著しく加速する。
近年の研究では、NATは1対多翻訳のような高度な知識の学習に弱いことが示されている。
モードは様々な粒度に分けることができ、そこから容易に学習できると我々は主張する。
論文 参考訳(メタデータ) (2021-06-10T07:16:07Z) - Translation Artifacts in Cross-lingual Transfer Learning [51.66536640084888]
機械翻訳は、既存の言語間モデルに顕著な影響を与える微妙なアーティファクトを導入することができることを示す。
自然言語の推論では、前提と仮説を独立に翻訳することで、それらの間の語彙的重複を減らすことができる。
また、XNLIでは、それぞれ4.3点と2.8点の翻訳とゼロショットのアプローチを改善している。
論文 参考訳(メタデータ) (2020-04-09T17:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。