論文の概要: Making Qwen3 Think in Korean with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.10355v1
- Date: Thu, 14 Aug 2025 05:49:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.189877
- Title: Making Qwen3 Think in Korean with Reinforcement Learning
- Title(参考訳): 強化学習による韓国のQwen3思考
- Authors: Jungyup Lee, Jemin Kim, Sang Park, SeungJae Lee,
- Abstract要約: 韓国語で大規模言語モデルQwen3 14Bを「考える」ための2段階の微調整手法を提案する。
第1段階では、高品質な韓国の推論データセットの微調整(SFT)を監督し、韓国の論理的推論の強力な基盤を確立する。
第2段階では、カスタマイズされたグループ相対ポリシー最適化アルゴリズムを用いた強化学習を採用する。
- 参考スコア(独自算出の注目度): 5.237306053045462
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present a two-stage fine-tuning approach to make the large language model Qwen3 14B "think" natively in Korean. In the first stage, supervised fine-tuning (SFT) on a high-quality Korean reasoning dataset establishes a strong foundation in Korean logical reasoning, yielding notable improvements in Korean-language tasks and even some gains in general reasoning ability. In the second stage, we employ reinforcement learning with a customized Group Relative Policy Optimization (GRPO) algorithm to further enhance both Korean reasoning alignment and overall problem-solving performance. We address critical stability challenges in GRPO training - such as reward hacking and policy collapse - by introducing an oracle judge model that calibrates the reward signal. Our approach achieves stable learning (avoiding the collapse observed in naive GRPO) and leads to steady, incremental performance gains. The final RL-tuned model demonstrates substantially improved results on advanced reasoning benchmarks (particularly math and coding tasks) while maintaining knowledge and language proficiency, successfully conducting its internal chain-of-thought entirely in Korean.
- Abstract(参考訳): 韓国語で大規模言語モデルQwen3 14Bをネイティブに「考える」ための2段階の微調整手法を提案する。
第1段階では、高品質な韓国の推論データセットの微調整(SFT)が韓国の論理的推論の強力な基盤を確立し、朝鮮語のタスクが顕著に改善され、一般の推論能力も向上した。
第2段階では、韓国の推論アライメントと全体的な問題解決性能をさらに向上させるために、カスタマイズされたグループ相対政策最適化(GRPO)アルゴリズムを用いた強化学習を採用する。
報奨ハッキングや政策崩壊などのGRPOトレーニングにおいて,報奨信号を校正するオラクル・ジャッジ・モデルを導入することで,重要な安定性上の課題に対処する。
提案手法は, 安定学習( GRPO で観測される崩壊を回避する)を実現し, 安定した, 漸進的な性能向上を実現する。
最終RL調整モデルは、高度な推論ベンチマーク(特に数学とコーディングのタスク)において、知識と言語能力を維持しながら大幅に改善された結果を示し、その内部チェーンを韓国語で完全に実施することに成功した。
関連論文リスト
- Scaling Up RL: Unlocking Diverse Reasoning in LLMs via Prolonged Training [121.5858973157225]
本研究では,長期強化学習が多種多様な推論領域にまたがる小言語モデルに及ぼす影響について検討する。
我々は,長期的パフォーマンス向上の鍵となる重要な要素として,制御KL正規化,クリッピング率,定期参照ポリシーリセットを導入する。
私たちのモデルは、数学の+14.7%、コーディングの+13.9%、論理パズルの+54.8%など、強力なベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-07-16T17:59:24Z) - GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。
SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。
応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文 参考訳(メタデータ) (2025-06-19T08:49:13Z) - Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback [59.078756231841574]
Critique-GRPOは、自然言語と数値フィードバックを統合して効果的なポリシー最適化を行うオンラインRLフレームワークである。
批判-GRPOは、教師付き学習とRLに基づく微調整法を8つの難解な数学、STEM、一般的な推論タスクで一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-06-03T17:39:02Z) - Redefining Evaluation Standards: A Unified Framework for Evaluating the Korean Capabilities of Language Models [0.0]
我々は,韓国のアセスメントを統合するオープンソースのレジストリベースのフレームワークであるHRET(Haerae Evaluation Toolkit)を紹介する。
HRETは、主要な韓国のベンチマーク、複数の推論バックエンド、マルチメソッド評価を統合している。
モジュール化されたレジストリ設計により、新しいデータセット、メソッド、バックエンドの迅速な取り込みが可能になる。
論文 参考訳(メタデータ) (2025-03-29T04:17:58Z) - Multi-Step Reasoning in Korean and the Emergent Mirage [0.0]
HRMCR(HAE-RAE Multi-Step Commonsense Reasoning)は,文化的に特定の文脈で多段階推論を行う大規模言語モデルの能力を評価するためのベンチマークである。
質問はテンプレートやアルゴリズムを通じて自動的に生成され、韓国の文化知識をシーケンシャルな推論ステップに統合する必要がある。
実験の結果, (2 cdot 1025) 未満の FLOP のトレーニングモデルでは, ほぼゼロに近い性能を示しながら, 問題の解決に苦慮していることがわかった。
論文 参考訳(メタデータ) (2025-01-10T05:07:27Z) - RedWhale: An Adapted Korean LLM Through Efficient Continual Pretraining [0.0]
韓国語処理に特化したモデルであるRedWhaleを紹介する。
RedWhaleは、韓国の包括的コーパス前処理パイプラインを含む効率的な継続事前訓練アプローチを用いて開発されている。
実験の結果、RedWhaleは韓国のNLPベンチマークで他の主要なモデルよりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T02:49:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。