論文の概要: Mending the Holes: Mitigating Reward Hacking in Reinforcement Learning for Multilingual Translation
- arxiv url: http://arxiv.org/abs/2603.13045v1
- Date: Fri, 13 Mar 2026 14:52:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:12.140231
- Title: Mending the Holes: Mitigating Reward Hacking in Reinforcement Learning for Multilingual Translation
- Title(参考訳): エンディング・ザ・ホール:多言語翻訳のための強化学習におけるリワードハックの軽減
- Authors: Yifeng Liu, Siqi Ouyang, Yatish Hosmane Revanasiddappa, Lei Li,
- Abstract要約: 既存のポストトレーニング手法は、高品質な並列データに大きく依存している。
単言語テキストのみを用いた強化学習手法であるWALARを紹介する。
我々は,WALARのRLトレーニングに対する報奨として,単語アライメントや言語アライメントなどの手法を開発し,そのような穴を緩和する。
- 参考スコア(独自算出の注目度): 9.906839381314082
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable capability in machine translation on high-resource language pairs, yet their performance on low-resource translation still lags behind. Existing post-training methods rely heavily on high-quality parallel data, which are often scarce or unavailable for low-resource languages. In this paper, we introduce WALAR, a reinforcement training method using only monolingual text to elevate LLMs' translation capabilities on massive low-resource languages while retaining their performance on high-resource languages. Our key insight is based on the observation of failure modes (or "holes") in existing source-based multilingual quality estimation (QE) models. Reinforcement learning (RL) using these QE models tends to amplify such holes, resulting in poorer multilingual LLMs. We develop techniques including word alignment and language alignment to mitigate such holes in WALAR's reward for RL training. We continually trained an LLM supporting translation of 101 languages using WALAR. The experiments show that our new model outperforms LLaMAX, one of the strongest open-source multilingual LLMs by a large margin on 1400 language directions on Flores-101 dataset.
- Abstract(参考訳): 大規模言語モデル(LLM)は、高リソースの言語ペア上での機械翻訳において顕著な能力を示しているが、低リソースの翻訳のパフォーマンスは依然として遅れている。
既存のポストトレーニング手法は高品質な並列データに大きく依存しており、低リソースの言語では少ないか、利用できないことが多い。
本稿では,モノリンガルテキストのみを用いた強化学習手法であるWALARについて紹介する。
我々の重要な洞察は、既存のソースベース多言語品質推定(QE)モデルにおける障害モード(または「ホール」)の観測に基づいています。
これらのQEモデルを用いた強化学習(RL)はそのような穴を増幅する傾向があり、結果として多言語LLMがより貧弱になる。
我々は,WALARのRLトレーニングに対する報奨として,単語アライメントや言語アライメントなどの手法を開発し,そのような穴を緩和する。
WALARを用いて101言語を翻訳するLLMを継続的に訓練した。
実験の結果、我々の新しいモデルは、Flores-101データセット上で1400の言語方向に対して大きなマージンで最強のオープンソース多言語LLMであるLLaMAXより優れていることがわかった。
関連論文リスト
- Is Small Language Model the Silver Bullet to Low-Resource Languages Machine Translation? [18.975160361440597]
低リソース言語 (LRL) には十分な言語資源がなく、ベンチマークデータセットでは不足している。
本研究では,200言語を対象に,最先端の小型言語モデルを体系的に評価する。
論文 参考訳(メタデータ) (2025-03-31T13:56:03Z) - Enhancing Multilingual Capabilities of Large Language Models through
Self-Distillation from Resource-Rich Languages [60.162717568496355]
大規模言語モデル(LLM)は多言語コーパスで事前訓練されている。
彼らのパフォーマンスは、いくつかのリソース豊富な言語と比較して、ほとんどの言語でまだ遅れています。
論文 参考訳(メタデータ) (2024-02-19T15:07:32Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - Chain-of-Dictionary Prompting Elicits Translation in Large Language Models [100.47154959254937]
大規模言語モデル(LLM)は多言語ニューラルマシン翻訳(MNMT)において驚くほど優れた性能を示した
入力単語のサブセットに対する多言語辞書の連鎖による事前知識でLLMを拡張して翻訳能力を引き出す新しい方法であるCoDを提案する。
論文 参考訳(メタデータ) (2023-05-11T05:19:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。