論文の概要: DeepTrans: Deep Reasoning Translation via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2504.10187v2
- Date: Fri, 29 Aug 2025 09:58:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 17:44:08.726017
- Title: DeepTrans: Deep Reasoning Translation via Reinforcement Learning
- Title(参考訳): DeepTrans:強化学習による深層推論翻訳
- Authors: Jiaan Wang, Fandong Meng, Jie Zhou,
- Abstract要約: 我々は、強化学習(RL)を通して自由翻訳を学ぶ深層推論翻訳モデルDeepTransを紹介する。
Qwen2.5-7Bをバックボーンとして使用することで、DeepTransは文学翻訳の16.3%の性能向上を実現している。
RL探査における失敗と興味深い発見を要約する。
- 参考スコア(独自算出の注目度): 65.96268429761842
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, deep reasoning LLMs (e.g., OpenAI o1 and DeepSeek-R1) have shown promising performance in various downstream tasks. Free translation is an important and interesting task in the multilingual world, which requires going beyond word-for-word translation. However, the task is still under-explored in deep reasoning LLMs. In this paper, we introduce DeepTrans, a deep reasoning translation model that learns free translation via reinforcement learning (RL). Specifically, we carefully build a reward model with pre-defined scoring criteria on both the translation results and the thought processes. The reward model teaches DeepTrans how to think and free-translate the given sentences during RL. Besides, our RL training does not need any labeled translations, avoiding the human-intensive annotation or resource-intensive data synthesis. Experimental results show the effectiveness of DeepTrans. Using Qwen2.5-7B as the backbone, DeepTrans improves performance by 16.3% in literature translation, and outperforms strong deep reasoning LLMs. Moreover, we summarize the failures and interesting findings during our RL exploration. We hope this work could inspire other researchers in free translation.
- Abstract(参考訳): 近年,LLM(例えば OpenAI o1 や DeepSeek-R1) は,様々なダウンストリームタスクにおいて有望な性能を示している。
自由翻訳は多言語世界において重要かつ興味深い課題であり、語句翻訳を超越する必要がある。
しかし、この課題はLLMの深い推論においてまだ過小評価されている。
本稿では、強化学習(RL)による自由翻訳を学習する深層推論翻訳モデルDeepTransを紹介する。
具体的には、翻訳結果と思考過程の双方について、事前に決められた評価基準を持つ報酬モデルを構築した。
報酬モデルは、与えられた文章をRL中に自由に考え、翻訳する方法をDeepTransに教える。
さらに、RLトレーニングにはラベル付き翻訳は必要とせず、人為的なアノテーションやリソース集約的なデータ合成を避けています。
実験の結果,DeepTransの有効性が示された。
Qwen2.5-7Bをバックボーンとして使用することにより、DeepTransは文学翻訳の16.3%の性能を向上し、強力な深い推論LLMよりも優れている。
さらに,RL探査における失敗と興味深い発見を要約した。
この研究が、他の研究者に無償翻訳を刺激することを期待している。
関連論文リスト
- Compensating for Data with Reasoning: Low-Resource Machine Translation with LLMs [0.0]
Fragment-Shot Promptingは、構文的カバレッジに基づいて、入力をセグメント化し、翻訳例を検索する、コンテキスト内学習手法である。
Pivoted Fragment-Shotは、直接並列データなしで翻訳できる拡張である。
GPT-3.5, GPT-4o, o1-mini, LLaMA-3.3, DeepSeek-R1 を用いてイタリア語と2種類のラディン語の翻訳を行った。
論文 参考訳(メタデータ) (2025-05-28T12:29:05Z) - TAT-R1: Terminology-Aware Translation with Reinforcement Learning and Word Alignment [18.162673576513836]
強化学習と単語アライメントを訓練した用語認識翻訳モデルである textbfTAT-R1 を提案する。
本モデルは,ベースラインモデルと比較して,用語翻訳の精度を著しく向上させる。
論文 参考訳(メタデータ) (2025-05-27T13:26:02Z) - ExTrans: Multilingual Deep Reasoning Translation via Exemplar-Enhanced Reinforcement Learning [77.41383117199227]
我々はポリシーMTモデルの翻訳結果と強力なLRMを比較するための新たな報酬モデリング手法を設計する。
Qwen2.5-7B-インストラクトをバックボーンとして、トレーニングされたモデルは、文学翻訳における新しい最先端のパフォーマンスを達成する。
11言語による多言語設定にメソッドを拡張します。
論文 参考訳(メタデータ) (2025-05-19T11:34:47Z) - Lost in Literalism: How Supervised Training Shapes Translationese in LLMs [51.04435855143767]
大規模言語モデル(LLM)は機械翻訳において顕著な成功を収めた。
しかし、過度にリテラルと不自然な翻訳を特徴とする翻訳は、依然として永続的な課題である。
我々は、黄金の基準を磨き、不自然なトレーニングインスタンスをフィルタリングするなど、これらのバイアスを軽減する方法を導入する。
論文 参考訳(メタデータ) (2025-03-06T12:14:45Z) - DRT: Deep Reasoning Translation via Long Chain-of-Thought [89.48208612476068]
本稿では,長いCoTをニューラルネットワーク翻訳(MT)に適用する試みであるDRTを紹介する。
まず、既存の文献から模範文や比喩文を含む文を抽出し、その後、長い思考を通してこれらの文を翻訳する多エージェントフレームワークを開発する。
Qwen2.5とLLama-3.1をバックボーンとして使用することで、DRTモデルは機械翻訳中に思考プロセスを学ぶことができる。
論文 参考訳(メタデータ) (2024-12-23T11:55:33Z) - Multi-perspective Alignment for Increasing Naturalness in Neural Machine Translation [11.875491080062233]
ニューラルマシン翻訳(NMT)システムは、トレーニングデータに存在する語彙バイアスを増幅し、出力翻訳において人工的に不十分な言語を生み出す。
自然とコンテンツ保存の両方に報いる新しい方法を提案する。
本手法は英蘭文翻訳において評価され,翻訳精度を損なうことなく,語彙的に豊かで,人文言語の性質が向上する翻訳モデルが得られた。
論文 参考訳(メタデータ) (2024-12-11T15:42:22Z) - TasTe: Teaching Large Language Models to Translate through Self-Reflection [82.83958470745381]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示した。
本稿では,自己回帰を通した翻訳を行うTasTeフレームワークを提案する。
WMT22ベンチマークにおける4つの言語方向の評価結果から,既存の手法と比較して,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-06-12T17:21:21Z) - Fine-Tuning Large Language Models to Translate: Will a Touch of Noisy Data in Misaligned Languages Suffice? [33.376648335299116]
大きな言語モデル(LLM)は、32のパラレル文で微調整された後、強い翻訳能力を示す。
英語のみを対象とするLLMは、非英語への翻訳を妨げるタスクの誤解釈につながる可能性がある。
未表現言語で合成されたデータは、顕著な効果が低い。
論文 参考訳(メタデータ) (2024-04-22T12:21:12Z) - Machine Translation Models are Zero-Shot Detectors of Translation Direction [46.41883195574249]
平行テキストの翻訳方向を検出することは、機械翻訳訓練や評価に応用できるが、盗作や偽造の主張を解消するといった法医学的応用もある。
本研究では,翻訳文や機械翻訳文でよく知られた単純化効果によって動機付けられた,$p(texttranslation|text Origin)>p(textgenic|texttranslation)$という単純な仮説に基づいて,翻訳方向検出のための教師なしアプローチを検討する。
論文 参考訳(メタデータ) (2024-01-12T18:59:02Z) - Crossing the Threshold: Idiomatic Machine Translation through Retrieval
Augmentation and Loss Weighting [66.02718577386426]
慣用的な翻訳と関連する問題を簡易に評価する。
我々は,変圧器をベースとした機械翻訳モデルが慣用的な翻訳に対して正しくデフォルトとなる点を明らかにするための合成実験を行った。
自然慣用句の翻訳を改善するために, 単純かつ効果的な2つの手法を導入する。
論文 参考訳(メタデータ) (2023-10-10T23:47:25Z) - Towards Debiasing Translation Artifacts [15.991970288297443]
確立されたバイアス除去手法を拡張して,翻訳文の削減のための新しい手法を提案する。
我々は、反復的ヌル空間投影(INLP)アルゴリズムを用いて、デバイアス前後の分類精度を計測することにより、文レベルと単語レベルの両方で翻訳文が削減されることを示す。
我々の知る限りでは、これは潜伏埋め込み空間で表現される翻訳語をデビアスする最初の研究である。
論文 参考訳(メタデータ) (2022-05-16T21:46:51Z) - Translation Artifacts in Cross-lingual Transfer Learning [51.66536640084888]
機械翻訳は、既存の言語間モデルに顕著な影響を与える微妙なアーティファクトを導入することができることを示す。
自然言語の推論では、前提と仮説を独立に翻訳することで、それらの間の語彙的重複を減らすことができる。
また、XNLIでは、それぞれ4.3点と2.8点の翻訳とゼロショットのアプローチを改善している。
論文 参考訳(メタデータ) (2020-04-09T17:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。