論文の概要: Reinforcement Learning with Semantic Rewards Enables Low-Resource Language Expansion without Alignment Tax
- arxiv url: http://arxiv.org/abs/2605.14366v1
- Date: Thu, 14 May 2026 04:47:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.624823
- Title: Reinforcement Learning with Semantic Rewards Enables Low-Resource Language Expansion without Alignment Tax
- Title(参考訳): セマンティック・リワードによる強化学習は、アライメント税を使わずに低リソース言語の拡張を可能にする
- Authors: Zeli Su, Ziyin Zhang, Zhou Liu, Xuexian Song, Zhankai Xu, Longfei Zheng, Xiaolu Zhang, Rong Fu, Guixian Xu, Wentao Zhang,
- Abstract要約: グループ相対ポリシー(GRPO)を利用した意味空間アライメントパラダイムを提案する。
この目的はフレキシブルな実現を通じて意味を奨励し、事前訓練された知識による破壊的干渉を減らす制御された更新を可能にする。
実験により,本手法はアライメント税を著しく軽減しつつ,低リソース能力が得られることが示された。
- 参考スコア(独自算出の注目度): 17.596121359044847
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Extending large language models (LLMs) to low-resource languages often incurs an "alignment tax": improvements in the target language come at the cost of catastrophic forgetting in general capabilities. We argue that this trade-off arises from the rigidity of supervised fine-tuning (SFT), which enforces token-level surface imitation on narrow and biased data distributions. To address this limitation, we propose a semantic-space alignment paradigm powered by Group Relative Policy Optimization (GRPO), where the model is optimized using embedding-level semantic rewards rather than likelihood maximization. This objective encourages meaning preservation through flexible realizations, enabling controlled updates that reduce destructive interference with pretrained knowledge. We evaluate our approach on Tibetan-Chinese machine translation and Tibetan headline generation. Experiments show that our method acquires low-resource capabilities while markedly mitigating alignment tax, preserving general competence more effectively than SFT. Despite producing less rigid surface overlap, semantic RL yields higher semantic quality and preference in open-ended generation, and few-shot transfer results indicate that it learns more transferable and robust representations under limited supervision. Overall, our study demonstrates that reinforcement learning with semantic rewards provides a safer and more reliable pathway for inclusive low-resource language expansion.
- Abstract(参考訳): 大規模言語モデル(LLM)を低リソース言語に拡張すると、しばしば「調整税」が発生する。
このトレードオフは、狭く偏りのあるデータ分布にトークンレベルの表面模倣を強制する教師付き微調整(SFT)の剛性から生じると我々は主張する。
この制限に対処するために,グループ相対ポリシー最適化(GRPO)を利用したセマンティック空間アライメントパラダイムを提案する。
この目的はフレキシブルな実現を通じて意味の保存を奨励し、事前訓練された知識による破壊的干渉を減らすための制御された更新を可能にする。
チベットの機械翻訳とチベットの見出し生成に対する我々のアプローチを評価する。
実験により,本手法はアライメント税を著しく軽減し,SFTよりも効率よく一般能力を維持するとともに,低リソース能力を得ることが示された。
表面の重なりが小さいにもかかわらず、セマンティックRLはオープンエンドジェネレーションにおいて高いセマンティック品質と嗜好をもたらす。
本研究は, セマンティック報酬を用いた強化学習が, 包括的低リソース言語拡張のための, より安全かつ信頼性の高い経路を提供することを示す。
関連論文リスト
- Self-Distilled Trajectory-Aware Boltzmann Modeling: Bridging the Training-Inference Discrepancy in Diffusion Language Models [65.89572755202245]
拡散言語モデル(DLM)は、より強力なグローバル認識と高い並列生成を提供する。
標準負のエビデンス下界(NELBO)に基づく教師付き微調整後のDLMは非効率である。
そこで本研究では,学習を推論の容易かつハードな構造に整合させる,自己蒸留軌道に基づくポストトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-12T09:39:06Z) - MERIT: Multilingual Expert-Reward Informed Tuning for Chinese-Centric Low-Resource Machine Translation [9.42682887916488]
5つの東南アジア低リソース言語(LRL)に対する中国語中心のALTベンチマークを導入する。
LRLtextright Chineseでは、微調整と報酬誘導最適化は、単なるモデルスケーリングよりも劇的に優れている。
これらの結果から、LRLtextright Chineseでは、ターゲットデータと報酬誘導最適化が単なるモデルスケーリングよりも劇的に優れていることが確認された。
論文 参考訳(メタデータ) (2026-04-06T16:42:34Z) - Compensating Visual Insufficiency with Stratified Language Guidance for Long-Tail Class Incremental Learning [50.795452298625996]
ロングテールクラスのインクリメンタルラーニング(LT CIL)は、テールクラスのサンプルの不足が学習を妨げているため、依然として非常に困難である。
これらの問題に対処するために、言語知識の情報性とスケーラビリティを活用します。
階層化適応型言語指導を導入し、学習可能な重みを利用してマルチスケールの意味表現をマージする。
論文 参考訳(メタデータ) (2026-03-23T08:50:00Z) - VEPO: Variable Entropy Policy Optimization for Low-Resource Language Foundation Models [17.595722907548062]
大規模言語モデルは低リソース言語上での最適以下の性能を示す。
本稿では,政策アライメントプロセスに決定論的構造制約を組み込んだ可変エントロピーポリシー最適化(VEPO)を提案する。
VePOはトークン化効率と翻訳品質の両方を大幅に改善し、表現不足の言語のパフォーマンスギャップを埋める。
論文 参考訳(メタデータ) (2026-03-19T17:10:29Z) - LAD: Learning Advantage Distribution for Reasoning [11.179134756179998]
本稿では,学習上の利点に取って代わる分散マッチングフレームワークであるLearning Advantage Distributionsを紹介する。
LADは精度と生成多様性の両方を確実に改善する。
数学およびコード推論タスクの実験により、LADは精度と生成多様性の両方を確実に改善することが示された。
論文 参考訳(メタデータ) (2026-02-23T18:44:10Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - Exposing the Cracks: Vulnerabilities of Retrieval-Augmented LLM-based Machine Translation [40.37732389445079]
本稿では,REAL-MTのロバスト性を評価するために,雑音合成フレームワークと新しい指標を提案する。
その結果,検索した文脈に強く依存する低リソース言語ペアは,雑音下では劣化しやすくなった。
LRMには推論能力が強化されているが、誤り訂正の改善は見られず、さらにノイズの影響を受けやすい。
論文 参考訳(メタデータ) (2025-10-01T12:43:55Z) - Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。
そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文 参考訳(メタデータ) (2025-06-15T05:42:29Z) - TRACE: TRansformer-based Attribution using Contrastive Embeddings in LLMs [50.259001311894295]
TRACE と呼ばれるコントラスト埋め込みを用いた新しいTRansformer-based Attribution フレームワークを提案する。
TRACEは情報源の属性を精度良く改善し,大規模言語モデルの信頼性と信頼性を高める貴重なツールであることを示す。
論文 参考訳(メタデータ) (2024-07-06T07:19:30Z) - Safe Multi-agent Reinforcement Learning with Natural Language Constraints [49.01100552946231]
安全なマルチエージェント強化学習(MARL)における自然言語制約の役割は重要であるが、しばしば見過ごされる。
自然言語制約付き安全マルチエージェント強化学習(SMALL)という新しいアプローチを提案する。
提案手法は、微調整言語モデルを用いて、自由形式のテキスト制約を解釈し、処理し、セマンティックな埋め込みに変換する。
これらの埋め込みはマルチエージェントのポリシー学習プロセスに統合され、エージェントは報酬を最適化しながら制約違反を最小限に抑えるポリシーを学ぶことができる。
論文 参考訳(メタデータ) (2024-05-30T12:57:35Z) - Semi-supervised Neural Machine Translation with Consistency
Regularization for Low-Resource Languages [3.475371300689165]
本稿では,高品質な文ペアを増補し,半教師付き方式でNMTモデルを訓練することにより,低リソース言語の問題に対処する,シンプルかつ効果的な手法を提案する。
具体的には、教師あり学習におけるクロスエントロピー損失と、疑似および拡張的対象文が与えられた教師なしのファッションにおけるKLディバージェンスを組み合わせる。
実験の結果,提案手法はNMTベースライン,特に0.46-2.03BLEUスコアを持つ低リソースデータセットにおいて,NMTベースラインを大幅に改善することが示された。
論文 参考訳(メタデータ) (2023-04-02T15:24:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。