論文の概要: Application-Driven Pedagogical Knowledge Optimization of Open-Source LLMs via Reinforcement Learning and Supervised Fine-Tuning
- arxiv url: http://arxiv.org/abs/2604.06385v1
- Date: Tue, 07 Apr 2026 19:16:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.198985
- Title: Application-Driven Pedagogical Knowledge Optimization of Open-Source LLMs via Reinforcement Learning and Supervised Fine-Tuning
- Title(参考訳): 強化学習と教師付きファインチューニングによるオープンソースLLMのアプリケーション駆動教育的知識最適化
- Authors: Navan Preet Singh, Xiaokun Wang, Anurag Garikipati, Madalina Ciobanu, Qingqing Mao, Ritankar Das,
- Abstract要約: 本稿では,大規模言語モデル(LLM)の教育的知識を高めるために,強化学習(RL)と教師付き微調整(SFT)を組み合わせた革新的な多段階最適化戦略を提案する。
EduQwen 32B-RL1、EduQwen 32B-SFT、EduQwen 32B-SFT-RL2は、密度の高いQwen3-32Bのバックボーン上に構築されたオープンソースの教育用LLMのアプリケーション駆動ファミリである。
- 参考スコア(独自算出の注目度): 0.5329114964121364
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present an innovative multi-stage optimization strategy combining reinforcement learning (RL) and supervised fine-tuning (SFT) to enhance the pedagogical knowledge of large language models (LLMs), as illustrated by EduQwen 32B-RL1, EduQwen 32B-SFT, and an optional third-stage model EduQwen 32B-SFT-RL2: (1) RL optimization that implements progressive difficulty training, focuses on challenging examples, and employs extended reasoning rollouts; (2) a subsequent SFT phase that leverages the RL-trained model to synthesize high-quality training data with difficulty-weighted sampling; and (3) an optional second round of RL optimization. EduQwen 32B-RL1, EduQwen 32B-SFT, and EduQwen 32B-SFT-RL2 are an application-driven family of open-source pedagogical LLMs built on a dense Qwen3-32B backbone. These models remarkably achieve high enough accuracy on the Cross-Domain Pedagogical Knowledge (CDPK) Benchmark to establish new state-of-the-art (SOTA) results across the interactive Pedagogy Benchmark Leaderboard and surpass significantly larger proprietary systems such as the previous benchmark leader Gemini-3 Pro. These dense 32-billion-parameter models demonstrate that domain-specialized optimization can transform mid-sized open-source LLMs into true pedagogical domain experts that outperform much larger general-purpose systems, while preserving the transparency, customizability, and cost-efficiency required for responsible educational AI deployment.
- Abstract(参考訳): EduQwen 32B-RL1, EduQwen 32B-SFT, and an optional third-stage model EduQwen 32B-SFT-RL2: (1) RL Optimization that implement Progress difficulty training, focus on challenge example, and using extended reasoning rollouts; (2) 続くSFT phaseは、RL学習モデルを利用して、困難で重み付けされたサンプリングで高品質なトレーニングデータを合成する。
EduQwen 32B-RL1、EduQwen 32B-SFT、EduQwen 32B-SFT-RL2は、密度の高いQwen3-32Bのバックボーン上に構築されたオープンソースの教育用LLMのアプリケーション駆動ファミリである。
これらのモデルは、Cross-Domain Pedagogical Knowledge (CDPK)ベンチマークにおいて、インタラクティブなPedagogy Benchmark Leaderboard全体にわたって新しい最先端(SOTA)結果を確立し、以前のベンチマークリーダーであるGemini-3 Proのようなはるかに大きなプロプライエタリシステムを上回る、十分な精度を実現している。
これらの密集した32ビリオンパラメータモデルは、中規模のオープンソースLLMを真の教育用ドメインエキスパートに変換し、より大規模な汎用システムより優れ、透明性、カスタマイズ性、コスト効率を保ちながら、教育用AIデプロイメントに責任を負うことを実証している。
関連論文リスト
- JoyAI-LLM Flash: Advancing Mid-Scale LLMs with Token Efficiency [56.46698214215968]
JoyAI-LLM Flashは、強力なパフォーマンスとトークン効率のトレードオフを再定義するために設計された、効率的なMixture-of-Experts (MoE)言語モデルである。
JoyAI-LLM Flashは20兆トークンの巨大なコーパスで事前トレーニングされており、厳格なポストトレーニングパイプラインを通じてさらに最適化されている。
論文 参考訳(メタデータ) (2026-04-03T13:52:38Z) - SAIL-VL2 Technical Report [65.45818722427506]
広義のマルチモーダル理解と推論のためのオープン・スイート・ビジョン・ファンデーション・モデル(LVM)であるSAIL-VL2を紹介する。
SAIL-VL2は2Bと8Bのパラメータスケールで様々な画像とビデオのベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-09-17T14:34:02Z) - BREAD: Branched Rollouts from Expert Anchors Bridge SFT & RL for Reasoning [27.36980225142871]
小さな言語モデル(SLM)は複雑な推論の振る舞いを学ぶのに苦労する。
標準的なトレーニングアプローチは、教師付き微調整(SFT)ステージと、強化学習(RL)ステージを組み合わせている。
BREAD: SFTとRLのステージを部分的に専門的なガイダンスと分岐ロールアウトで統一するGRPOの派生版を紹介する。
論文 参考訳(メタデータ) (2025-06-20T17:59:07Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - Metis-RISE: RL Incentivizes and SFT Enhances Multimodal Reasoning Model Learning [20.515599491717442]
マルチモーダル推論モデル学習のためのtextbfMetis-RISE (textbfRL textbfSFT textbfEnhances) を提案する。
論文 参考訳(メタデータ) (2025-06-16T02:56:13Z) - First SFT, Second RL, Third UPT: Continual Improving Multi-Modal LLM Reasoning via Unsupervised Post-Training [37.80193099472551]
MLLMの教師なし後学習のための簡易かつ効果的なフレームワークであるMM-UPTを提案する。
本実験は,Qwen2.5-VL-7Bの推論能力を効果的に向上することを示した。
我々は、MLLMに新しいトレーニングサンプルを合成させる2つの戦略を設計し、我々のフレームワークをデータ・セルフジェネレーション・セッティングに拡張する。
論文 参考訳(メタデータ) (2025-05-28T15:11:16Z) - On the Emergence of Thinking in LLMs I: Searching for the Right Intuition [34.32871896067864]
自己学習による強化学習(RLSP)というポストトレーニングフレームワークを提案する。
RLSPは、推論プロセスの人間または合成的なデモンストレーションによる微調整、多種多様な効率的な推論行動を促進するための探索報酬信号の使用、報酬ハッキングを予防しながら正当性を確保するための結果検証器によるRLトレーニングの3段階を含む。
数学領域における実証的研究は、RLSPが推論を改善することを示している。
論文 参考訳(メタデータ) (2025-02-10T18:52:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。