Fugu-MT 論文翻訳(概要): Reference-Free Reinforcement Learning Fine-Tuning for MT: A Seq2Seq Perspective

論文の概要: Reference-Free Reinforcement Learning Fine-Tuning for MT: A Seq2Seq Perspective

arxiv url: http://arxiv.org/abs/2605.15976v1
Date: Fri, 15 May 2026 14:11:23 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-18 21:22:26.306942
Title: Reference-Free Reinforcement Learning Fine-Tuning for MT: A Seq2Seq Perspective
Title（参考訳）: MTのための参照なし強化学習ファインチューニング:Seq2Seqの視点
Authors: Ernesto Garcia-Estrada, Carlos Escolano, José A. R. Fonallosa,
Abstract要約: GRPOは従来の中国語で最大$5.03 chrF++の13言語に対して一貫した改良を施しており、ターゲット言語データなしでは、形態学的に複雑な言語に関する3つのエポック的な微調整と競合する。我々は、ゲインが最大であり、ベースライン性能が最も低く、報酬の差別性が最高である一貫した経験的パターンを同定する。
参考スコア（独自算出の注目度）: 1.786053901581251
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Production machine translation relies overwhelmingly on encoder-decoder Seq2Seq models, yet reinforcement learning approaches to MT fine-tuning have largely targeted decoder-only LLMs at $\geq$7B parameters, with limited systematic study of encoder-decoder architectures. We apply Group Relative Policy Optimization to NLLB-200 (600M and 1.3B) using a hybrid reference-free reward (LaBSE and COMET-Kiwi) that requires no parallel data at fine-tuning time, evaluating across 13 typologically diverse languages. GRPO yields consistent improvements on all 13 languages, up to $+$5.03 chrF++ for Traditional Chinese, and, without any target-language data, competes with 3-epoch supervised fine-tuning on morphologically complex languages . We identify a consistent empirical pattern in which gains are largest where baseline performance is weakest and reward discriminability is highest, making this approach most effective precisely where parallel data is scarcest, and replicate this pattern across English and Spanish source languages.
Abstract（参考訳）: 生産機械翻訳はエンコーダ・デコーダのSeq2Seqモデルに大きく依存しているが、MTファインチューニングへの強化学習アプローチは、エンコーダ・デコーダアーキテクチャの体系的な研究に制限のある$\geq$7BのパラメータでデコーダのみのLLMをターゲットにしている。我々は,NLLB-200(600Mと1.3B)に対して,微調整時間に並列データを必要としないハイブリッド参照自由報酬(LaBSEとCOMET-Kiwi)を用いて,13言語にまたがって評価を行った。 GRPOは従来の中国語で最大$5.03 chrF++までの13言語で一貫した改良を施し、ターゲット言語データなしでは、形態学的に複雑な言語で3つのエポック的な微調整と競合する。ベースライン性能が最も弱く、報酬の差別性が最も高いゲインが最大である一貫した経験的パターンを特定し、このアプローチは並列データが不十分な場所で最も効果的であり、このパターンを英語とスペイン語のソース言語間で複製する。

関連論文リスト

Matching Features, Not Tokens: Energy-Based Fine-Tuning of Language Models [102.20309135516186]
クロスエントロピー(CE)トレーニングは、言語モデルの密集したスケーラブルな監視を提供する。言語モデル微調整のための特徴マッチング手法を提案する。この目的を効率的に最適化するために,エネルギーベースファインチューニングを提案する。
論文参考訳（メタデータ） (2026-03-12T17:57:50Z)
Cost-Aware Model Selection for Text Classification: Multi-Objective Trade-offs Between Fine-Tuned Encoders and LLM Prompting in Production [0.0]
大規模言語モデル(LLM)は、オープンエンド推論や生成言語タスクにおいて強力な機能を示している。固定ラベル空間を用いた構造化テキスト分類問題に対して、モデル選択は予測性能のみによって駆動されることが多い。 BERTファミリーの細調整エンコーダを用いたモデルでは、競争力があり、しばしば優れた分類性能が得られることを示す。
論文参考訳（メタデータ） (2026-02-06T03:54:28Z)
Beyond Language Barriers: Multi-Agent Coordination for Multi-Language Code Generation [8.896718697354187]
XL-CoGenは、複数のプログラミング言語で高品質なコードを生成する。中間表現、コード生成、翻訳、自動修復を統合する。
論文参考訳（メタデータ） (2025-09-24T09:18:08Z)
Bielik v3 Small: Technical Report [0.0]
ポーランド語処理に最適化されたパラメータ効率の良い生成テキストモデル (1.5B と 4.5B) である Bielik v3 を紹介する。これらのモデルは、より小さく、最適化されたアーキテクチャが、はるかに大きなアーキテクチャに匹敵するパフォーマンスを達成することを実証している。
論文参考訳（メタデータ） (2025-05-05T10:39:51Z)
Trans-Zero: Self-Play Incentivizes Large Language Models for Multilingual Translation Without Parallel Data [64.4458540273004]
言語モデル(LLM)の単言語データと本質的な多言語知識のみを活用するセルフプレイフレームワークを提案する。実験により、このアプローチは大規模並列データに基づいて訓練されたモデルの性能と一致するだけでなく、非英語翻訳の方向でも優れていることが示された。
論文参考訳（メタデータ） (2025-04-20T16:20:30Z)
Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文参考訳（メタデータ） (2021-09-09T03:48:35Z)
Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得たほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文参考訳（メタデータ） (2021-06-10T10:18:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。