論文の概要: Do LLMs Need Inherent Reasoning Before Reinforcement Learning? A Study in Korean Self-Correction
- arxiv url: http://arxiv.org/abs/2601.05459v1
- Date: Fri, 09 Jan 2026 01:17:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.804229
- Title: Do LLMs Need Inherent Reasoning Before Reinforcement Learning? A Study in Korean Self-Correction
- Title(参考訳): LLMは強化学習に一貫性のある推論を必要とするか? : 韓国の自己補正研究
- Authors: Hongjin Kim, Jaewook Lee, Kiyoung Lee, Jong-hun Shin, Soojong Lim, Oh-Woog Kwon,
- Abstract要約: 強化学習が韓国の推論能力を英語に匹敵する程度に向上させるかどうかを検討する。
韓国固有の推論能力に欠けるモデルに適用した場合,RLだけでは限定的な改善が得られた。
モデルの内部推論過程と韓国入力との整合性を示す。特に,韓国固有のニューロンを初期層に調整することで,RLの有効性を解き放つことが重要である。
- 参考スコア(独自算出の注目度): 7.756650000650388
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) demonstrate strong reasoning and self-correction abilities in high-resource languages like English, but their performance remains limited in low-resource languages such as Korean. In this study, we investigate whether reinforcement learning (RL) can enhance Korean reasoning abilities to a degree comparable to English. Our findings reveal that RL alone yields limited improvements when applied to models lacking inherent Korean reasoning capabilities. To address this, we explore several fine-tuning strategies and show that aligning the model's internal reasoning processes with Korean inputs-particularly by tuning Korean-specific neurons in early layers-is key to unlocking RL's effectiveness. We introduce a self-correction code-switching dataset to facilitate this alignment and observe significant performance gains in both mathematical reasoning and self-correction tasks. Ultimately, we conclude that the crucial factor in multilingual reasoning enhancement is not injecting new linguistic knowledge, but effectively eliciting and aligning existing reasoning capabilities. Our study provides a new perspective on how internal translation and neuron-level tuning contribute to multilingual reasoning alignment in LLMs.
- Abstract(参考訳): 大きな言語モデル(LLM)は、英語のような高リソース言語では強い推論能力と自己補正能力を示すが、韓国語のような低リソース言語では依然としてその性能は限られている。
本研究では,強化学習(RL)が韓国の推論能力を英語に匹敵する程度に向上させるかどうかを検討する。
韓国固有の推論能力に欠けるモデルに適用した場合,RLだけでは限定的な改善が得られた。
そこで本研究では,初期の層に韓国固有のニューロンをチューニングすることで,モデルの内部推論過程と韓国入力とを整合させることが,RLの有効性を解き明かす鍵となることを示す。
我々は、このアライメントを容易にし、数学的推論と自己補正の両方のタスクにおいて顕著なパフォーマンス向上を観察するために、自己補正コードスイッチングデータセットを導入する。
究極的には、多言語推論の強化において重要な要素は、新しい言語知識を注入することではなく、既存の推論能力を効果的に引き起こし、整合させることである。
本研究は,LLMにおける内部翻訳とニューロンレベルのチューニングが多言語推論アライメントにどのように貢献するかについて,新たな視点を提供する。
関連論文リスト
- Code-Switching In-Context Learning for Cross-Lingual Transfer of Large Language Models [64.54005959758733]
我々は,コードスイッチング・イン・コンテキスト・ラーニング(CSICL)を,推論中の翻訳障壁を克服するための原則的かつ堅牢なアプローチとして導入する。
4つのLLM、6つのデータセット、10の言語にわたる広範な実験を行い、知識集約型ドメインと推論指向ドメインの両方にまたがる。
その結果、CSICLはX-ICLベースラインを一貫して上回り、ターゲット言語と見当たらない言語の両方で3.1%pと1.9%pを達成した。
論文 参考訳(メタデータ) (2025-10-07T08:35:42Z) - Parallel Scaling Law: Unveiling Reasoning Generalization through A Cross-Linguistic Perspective [52.452449102961225]
本研究は、推論一般化を探求する新たな言語横断的視点を提案する。
本研究により,言語間の伝達性は,初期モデル,対象言語,訓練パラダイムによって大きく異なることが明らかとなった。
我々の研究は、LRM推論が人間の認知を反映し、言語に依存しないLRMの開発に重要な洞察を与えるという仮定に挑戦する。
論文 参考訳(メタデータ) (2025-10-02T17:49:49Z) - Making Qwen3 Think in Korean with Reinforcement Learning [5.237306053045462]
韓国語で大規模言語モデルQwen3 14Bを「考える」ための2段階の微調整手法を提案する。
第1段階では、高品質な韓国の推論データセットの微調整(SFT)を監督し、韓国の論理的推論の強力な基盤を確立する。
第2段階では、カスタマイズされたグループ相対ポリシー最適化アルゴリズムを用いた強化学習を採用する。
論文 参考訳(メタデータ) (2025-08-14T05:49:34Z) - The Emergence of Abstract Thought in Large Language Models Beyond Any Language [95.50197866832772]
大規模言語モデル(LLM)は様々な言語で効果的に機能する。
予備的研究では、LLMの隠れた活性化は、英語以外のプロンプトに反応してもしばしば英語に類似している。
近年の結果は多言語のパフォーマンスが強く、他の言語での特定のタスクにおける英語のパフォーマンスを超えている。
論文 参考訳(メタデータ) (2025-06-11T16:00:54Z) - Mechanistic Understanding and Mitigation of Language Confusion in English-Centric Large Language Models [56.61984030508691]
言語混乱に関する最初の機械論的解釈可能性研究について述べる。
混乱点(CP)がこの現象の中心であることを示す。
比較分析によって同定された少数の臨界ニューロンを多言語で調整したニューロンで編集すると、混乱が著しく軽減されることがわかった。
論文 参考訳(メタデータ) (2025-05-22T11:29:17Z) - When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners [111.50503126693444]
言語固有のアブレーションは多言語推論性能を継続的に向上させることを示す。
トレーニング後のアブレーションと比較して、トレーニング不要のアブレーションは、計算オーバーヘッドを最小限に抑えながら、同等または優れた結果が得られる。
論文 参考訳(メタデータ) (2025-05-21T08:35:05Z) - Language Mixing in Reasoning Language Models: Patterns, Impact, and Internal Causes [54.96891982093408]
RLM(Reasoning Language Model)は、チェーン・オブ・シント・プロセスを利用して構造化中間ステップを生成することで、複雑なタスクに優れる。
言語混合、すなわちプロンプト以外の言語からのトークンを含む推論ステップがアウトプットで観測され、性能に影響することが示されている。
本研究では, RLMにおける言語混合に関する最初の体系的研究を行い, そのパターン, 影響, 内部要因を15言語にわたって検討した。
論文 参考訳(メタデータ) (2025-05-20T18:26:53Z) - RedWhale: An Adapted Korean LLM Through Efficient Continual Pretraining [0.0]
韓国語処理に特化したモデルであるRedWhaleを紹介する。
RedWhaleは、韓国の包括的コーパス前処理パイプラインを含む効率的な継続事前訓練アプローチを用いて開発されている。
実験の結果、RedWhaleは韓国のNLPベンチマークで他の主要なモデルよりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T02:49:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。