論文の概要: Motif-2-12.7B-Reasoning: A Practitioner's Guide to RL Training Recipes
- arxiv url: http://arxiv.org/abs/2512.11463v1
- Date: Thu, 11 Dec 2025 00:51:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.738205
- Title: Motif-2-12.7B-Reasoning: A Practitioner's Guide to RL Training Recipes
- Title(参考訳): Motif-2-12.7B-Reasoning:Practitioner's Guide to RL Training Recipes
- Authors: Junghwan Lim, Sungmin Lee, Dongseok Kim, Taehyun Kim, Eunhwan Park, Jeesoo Lee, Jeongdoo Lee, Junhyeok Lee, Wai Ting Cheung, Dahye Choi, Minsu Ha, Jaeheui Her, Jaeyeon Huh, Hanbin Jung, Changjin Kang, Beomgyu Kim, Minjae Kim, Taewhan Kim, Youngrok Kim, Hyukjin Kweon, Haesol Lee, Kungyu Lee, Dongpin Oh, Yeongjae Park, Bokki Ryu, Dongjoo Weon,
- Abstract要約: 複雑な推論と長文理解において,オープンウェイトシステムとプロプライエタリフロンティアモデルのギャップを埋めるために設計された12.7Bパラメータ言語モデルを導入する。
提案手法は,ハイブリッド並列処理とカーネルレベルの最適化を用いて,64Kのコンテキストに対するメモリ効率のよいインフラストラクチャを組み合わせる。
本稿では,難易度を考慮したデータフィルタリングと混成政治軌道再利用によるトレーニングを安定化する,堅牢な強化学習ファインタニングパイプラインについて述べる。
- 参考スコア(独自算出の注目度): 7.998815625852598
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Motif-2-12.7B-Reasoning, a 12.7B parameter language model designed to bridge the gap between open-weight systems and proprietary frontier models in complex reasoning and long-context understanding. Addressing the common challenges of model collapse and training instability in reasoning adaptation, we propose a comprehensive, reproducible training recipe spanning system, data, and algorithmic optimizations. Our approach combines memory-efficient infrastructure for 64K-token contexts using hybrid parallelism and kernel-level optimizations with a two-stage Supervised Fine-Tuning (SFT) curriculum that mitigates distribution mismatch through verified, aligned synthetic data. Furthermore, we detail a robust Reinforcement Learning Fine-Tuning (RLFT) pipeline that stabilizes training via difficulty-aware data filtering and mixed-policy trajectory reuse. Empirical results demonstrate that Motif-2-12.7B-Reasoning achieves performance comparable to models with significantly larger parameter counts across mathematics, coding, and agentic benchmarks, offering the community a competitive open model and a practical blueprint for scaling reasoning capabilities under realistic compute constraints.
- Abstract(参考訳): 複雑な推論と長文理解において,オープンウェイトシステムとプロプライエタリなフロンティアモデルとのギャップを埋めるために設計された12.7Bパラメータ言語モデルであるMotif-2-12.7B-Reasoningを導入する。
モデル崩壊と推論適応におけるトレーニング不安定性の共通課題に対処し、システム、データ、アルゴリズム最適化にまたがる包括的かつ再現可能なトレーニングレシピを提案する。
提案手法は,ハイブリッド並列処理とカーネルレベルの最適化を併用した,64K-tokenコンテキストのメモリ効率のインフラと2段階のSupervised Fine-Tuning (SFT) カリキュラムを組み合わせることで,検証された整列合成データによる分散ミスマッチを緩和する。
さらに,頑健な強化学習ファインタニング(RLFT)パイプラインについて述べる。
実証的な結果から、Motif-2-12.7B-Reasoningは、数学、コーディング、エージェントベンチマークにまたがる非常に大きなパラメータ数を持つモデルに匹敵する性能を達成し、コミュニティに現実的な計算制約の下で推論能力を拡張するための競争力のあるオープンモデルと実践的な青写真を提供する。
関連論文リスト
- Motif 2 12.7B technical report [8.084150960631142]
Motif-2-12.7Bは、大規模言語モデルの効率フロンティアを推し進める新しいオープンウェイト基盤モデルである。
モデルは、様々な言語、数学、科学、プログラミングドメインにまたがる5.5兆のトークンで事前訓練されている。
ポストトレーニングでは、一般的な命令順守、構成的理解、言語的正確性を高める3段階の教師付き微調整パイプラインが採用されている。
論文 参考訳(メタデータ) (2025-11-07T10:32:16Z) - LLM Routing with Dueling Feedback [49.67815163970033]
ユーザの満足度,モデルの専門性,推論コストのバランスを保ちながら,クエリ毎に最適なモデルを選択するという課題について検討する。
絶対的なスコアではなく、ペアの選好フィードバックから学習することで、ルーティングをコンテキストデュエルの帯域として定式化する。
分類的重み付けを用いた対照的な微調整を用いて,オフラインデータからモデル埋め込みを導出する表現学習手法であるカテゴリーキャリブレーション・ファインタニング(CCFT)を導入する。
論文 参考訳(メタデータ) (2025-10-01T12:52:25Z) - SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。
トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文 参考訳(メタデータ) (2025-08-07T03:50:48Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - iTool: Reinforced Fine-Tuning with Dynamic Deficiency Calibration for Advanced Tool Use [56.31110409360567]
大規模な言語モデルを外部ツールで拡張することは、その機能を強化するための有望なアプローチである。
その結果, 合成データの増加に伴い, トレーニングは著しく低下することがわかった。
我々は,この制限を緩和するために,反復的に強化された微調整戦略を提案する。
論文 参考訳(メタデータ) (2025-01-15T04:52:34Z) - Optimizing Sequential Recommendation Models with Scaling Laws and Approximate Entropy [104.48511402784763]
SRモデルの性能法則は,モデルの性能とデータ品質の関係を理論的に調査し,モデル化することを目的としている。
データ品質を評価するために、従来のデータ量メトリクスと比較して、より曖昧なアプローチを示すために、近似エントロピー(ApEn)を提案する。
論文 参考訳(メタデータ) (2024-11-30T10:56:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。