論文の概要: RL from Teacher-Model Refinement: Gradual Imitation Learning for Machine Translation
- arxiv url: http://arxiv.org/abs/2507.22219v1
- Date: Tue, 29 Jul 2025 20:35:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:17.864122
- Title: RL from Teacher-Model Refinement: Gradual Imitation Learning for Machine Translation
- Title(参考訳): 教師モデルリファインメントからのRL:機械翻訳のための直感的模倣学習
- Authors: Dongyub Jude Lee, Zhenyi Ye, Pengcheng He,
- Abstract要約: Reinforcement Learning from Teacher-Model Refinement (RLfR)は、外部教師モデル(GPT-4o)からの継続的な高品質フィードバックを活用することで、静的三重項への依存を取り除く新しいフレームワークである。
FLORES-200ベンチマーク(ドイツ語、スペイン語、中国語、韓国語、日本語)では、RLfRはMT-SFTと嗜好ベースラインの両方を一貫して上回っている。
- 参考スコア(独自算出の注目度): 31.28415780479141
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Preference-learning methods for machine translation (MT)--such as Direct Preference Optimization (DPO)--have achieved impressive gains but depend heavily on large, carefully curated triplet datasets and often struggle to generalize beyond their tuning domains. We propose Reinforcement Learning from Teacher-Model Refinement (RLfR), a novel framework that removes reliance on static triplets by leveraging continuous, high-quality feedback from an external teacher model (GPT-4o). RLfR frames each translation step as a micro-tutorial: the actor generates a hypothesis, the teacher refines it, and the actor is rewarded based on how closely it aligns with the teacher's refinement. Guided by two complementary signals--(i) negative edit distance, promoting lexical and structural fidelity, and (ii) COMET score, ensuring semantic adequacy--the actor progressively learns to emulate the teacher, mirroring a human learning process through incremental, iterative improvement. On the FLORES-200 benchmark (English to and from German, Spanish, Chinese, Korean, and Japanese), RLfR consistently outperforms both MT-SFT and preference-based baselines, significantly improving COMET (semantic adequacy) and M-ETA (entity preservation) scores.
- Abstract(参考訳): 機械翻訳(MT)の選好学習手法は、直接選好最適化(DPO)など、目覚ましい成果を上げたが、大きく、慎重にキュレートされた三重項データセットに大きく依存しており、チューニングドメインを超えて一般化するのに苦労することが多い。
本稿では,外部教師モデル(GPT-4o)からの連続的,高品質なフィードバックを活用することで,静的三重項への依存を解消する新しいフレームワークであるRLfRを提案する。
RLfRは、各翻訳ステップをマイクロチュートリアルとしてフレーム化し、アクターは仮説を生成し、教師はそれを洗練し、アクターは教師の洗練と密接な関係で報酬を受ける。
2つの補完信号で導かれる--
一 否定的な編集距離、語彙的及び構造的忠実性を促進すること、
(二)COMETスコア、意味的妥当性の確保-段階的に教師のエミュレートを学び、段階的かつ反復的な改善を通じて人間の学習プロセスを反映する。
FLORES-200ベンチマーク(ドイツ語、スペイン語、中国語、韓国語、日本語)では、RLfRはMT-SFTと嗜好ベースラインの両方を一貫して上回り、COMET(semantic adequacy)とM-ETA(entity storage)スコアを大幅に改善した。
関連論文リスト
- RIVAL: Reinforcement Learning with Iterative and Adversarial Optimization for Machine Translation [33.79108789619648]
大規模言語モデル(LLM)は、強い多言語機能を有し、ヒューマンフィードバックからの強化学習と翻訳タスクを組み合わせることは大きな可能性を示している。
このパラダイムは、単語の字幕翻訳タスクに適用した場合、予期せぬ性能が低下するのを観察する。
本稿では,RM と LLM の間の min-max ゲームとしてプロセスを定式化する,対角的学習フレームワーク RIVAL を提案する。
論文 参考訳(メタデータ) (2025-06-05T14:18:21Z) - Towards Better Instruction Following Retrieval Models [30.99867106106421]
InF-IRは,Instruction-Following IRにおける検索モデルの強化に適した,大規模で高品質なトレーニングコーパスである。
InF-IRは従来のトレーニングペアを38,000以上の表現型命令、クエリ、パス>三つ子に正のサンプルとして拡張する。
命令とクエリの両方を毒殺した後、高度推論モデル(o3-mini)によって厳密に検証し、命令の不正確性を保ちながら意味的妥当性を保証する。
論文 参考訳(メタデータ) (2025-05-27T17:14:37Z) - T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation [60.620408007636016]
T2I-Eval-R1は,大まかな品質スコアのみを用いて,オープンソースのMLLMを訓練する新しい強化学習フレームワークである。
提案手法では,グループ相対政策最適化を命令調整プロセスに統合し,スカラースコアと解釈可能な推論チェーンの両方を生成する。
論文 参考訳(メタデータ) (2025-05-23T13:44:59Z) - Capturing Nuanced Preferences: Preference-Aligned Distillation for Small Language Models [22.613040767122225]
教師の選好知識を全ての潜在的選好に対する確率分布としてモデル化した選好適応蒸留フレームワークを提案する。
4つの主流アライメントベンチマークの実験では、PADが既存のアプローチよりも一貫して、大幅に優れていることが示されている。
論文 参考訳(メタデータ) (2025-02-20T05:18:23Z) - Imitating Language via Scalable Inverse Reinforcement Learning [34.161807103808016]
我々は,模倣に対する逆強化学習の観点からの考察に焦点をあてる。
IRLをベースとした模倣には,特にタスク性能を最大化しながら多様性を維持する上で,明らかなメリットがある。
論文 参考訳(メタデータ) (2024-09-02T16:48:57Z) - LLMs-as-Instructors: Learning from Errors Toward Automating Model Improvement [93.38736019287224]
LLMs-as-Instructors"フレームワークは、より小さなターゲットモデルのトレーニングを自律的に強化する。
このフレームワークは、"Learning from Errors"理論にインスパイアされ、ターゲットモデル内の特定のエラーを注意深く分析するインストラクターLLMを使用している。
本フレームワークでは,適切なトレーニングデータに対する誤応答のみに焦点を当てた「エラーからの学習」と,比較学習を用いて誤りの深い理解を行う「コントラストによるエラーからの学習」という2つの戦略を実装している。
論文 参考訳(メタデータ) (2024-06-29T17:16:04Z) - A Critical Evaluation of AI Feedback for Aligning Large Language Models [60.42291111149438]
教師が既存のRLAIFパイプラインより優れていることを示す。
より一般的には、RLAIFの利得は、ベースモデルファミリ、テスト時間評価プロトコル、批判モデルによって大きく異なることが分かる。
論文 参考訳(メタデータ) (2024-02-19T18:53:54Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - From Mimicking to Integrating: Knowledge Integration for Pre-Trained
Language Models [55.137869702763375]
本稿では,新しいPLM再利用パラダイムであるKnowledge Integration(KI)について検討する。
KIは,異なる分類問題に特化している教師-PLMの知識を,多種多様な学生モデルにマージすることを目的としている。
次に,モデル不確かさを意識した知識統合(MUKI)フレームワークを設計し,学生の黄金の監督を回復する。
論文 参考訳(メタデータ) (2022-10-11T07:59:08Z) - Self-Paced Learning for Neural Machine Translation [55.41314278859938]
ニューラルネットワーク翻訳(NMT)訓練のためのセルフペースト学習を提案する。
提案モデルでは,強いベースラインよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-10-09T11:33:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。