論文の概要: Thinking with DistilQwen: A Tale of Four Distilled Reasoning and Reward Model Series
- arxiv url: http://arxiv.org/abs/2511.01354v1
- Date: Mon, 03 Nov 2025 09:00:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.185612
- Title: Thinking with DistilQwen: A Tale of Four Distilled Reasoning and Reward Model Series
- Title(参考訳): DistilQwenで考える:4つの蒸留反応とリワードモデルシリーズの物語
- Authors: Wenrui Cai, Chengyu Wang, Junbing Yan, Jun Huang, Xiangzhong Fang,
- Abstract要約: 産業要求を満たすために特別に設計された4つのモデルシリーズを紹介する。
DistilQwen モデルコレクションは,(1) 精度の高い推論タスクに最適化されたスロー思考モデル,(2) 多様なシナリオにまたがる効率を最大化するために入力タスクに基づく推論戦略を動的に調整する適応思考モデル,(3) 蒸留された知識を用いた推論モデルのさらなる強化学習を可能にする蒸留報酬モデルを含む。
- 参考スコア(独自算出の注目度): 15.763018008675083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the demand for small and efficient reasoning models to support real-world applications has driven the development of knowledge distillation techniques that balance reasoning performance and inference speed. In this paper, we further extend the DistilQwen model family, initialized from the Qwen models, by introducing four model series specifically designed to meet industrial requirements. The distilled model collection comprises: (1) slow-thinking models, optimized for reasoning tasks that require high accuracy; (2) two series of adaptive-thinking models, which dynamically adjust reasoning strategies based on input tasks to maximize efficiency across diverse scenarios; and (3) distilled reward models, which enable further reinforcement learning of reasoning models using distilled knowledge. Comprehensive evaluations across multiple benchmarks demonstrate both high inference efficiency and strong reasoning performance for these models, as well as the practical utility of distilled reward models. We further show that these models support industry practitioners by providing scalable training and inference functionalities on the Alibaba Cloud PAI (Platform for Artificial Intelligence) platform.
- Abstract(参考訳): 近年,実世界のアプリケーションを支援するための小型かつ効率的な推論モデルへの需要が,推論性能と推論速度のバランスをとる知識蒸留技術の開発に拍車を掛けている。
本稿では,Qwen モデルから初期化した DistilQwen モデルファミリをさらに拡張し,産業要求を満たすために設計された4つのモデルシリーズを導入する。
本発明の蒸留モデル収集は,(1)高精度な推論タスクに最適化されたスロー思考モデル,(2)多様なシナリオにまたがる効率を最大化するために入力タスクに基づく推論戦略を動的に調整する適応思考モデル,(3)蒸留知識を用いた推論モデルのさらなる強化学習を可能にする蒸留報酬モデルからなる。
複数のベンチマークの総合的な評価は、これらのモデルに対する高い推論効率と強い推論性能と、蒸留された報酬モデルの実用性の両方を示している。
さらに,これらのモデルは,Alibaba Cloud PAI(Platform for Artificial Intelligence)プラットフォーム上で,スケーラブルなトレーニングと推論機能を提供することによって,業界実践者を支援することを示す。
関連論文リスト
- The Thinking Spectrum: An Empirical Study of Tunable Reasoning in LLMs through Model Merging [8.930191971732649]
本稿では,複数の推論ベンチマークにまたがるモデルマージ手法について,大規模な実験的検討を行った。
その結果, モデルマージは, 推論精度とトークン効率のトレードオフを校正するための, 効果的かつ制御可能な手法であることがわかった。
本研究は、この調整可能な空間を包括的に解析し、特定の推論プロファイルを持つLCMを作成するための実践的ガイドラインを提供する。
論文 参考訳(メタデータ) (2025-09-26T08:12:13Z) - LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。
提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。
我々のフレームワークは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上させる。
論文 参考訳(メタデータ) (2025-05-22T16:22:54Z) - Leveraging Reasoning Model Answers to Enhance Non-Reasoning Model Capability [16.441081996257576]
我々は、推論集約モデルを利用して、計算負荷の少ない非推論モデルを改善することを提案する。
我々は、様々なベンチマークで一貫した改善を示し、モデルが直接質問に答える能力を向上するこのアプローチの可能性を強調した。
論文 参考訳(メタデータ) (2025-04-13T16:26:56Z) - Generative Models in Decision Making: A Survey [63.68746774576147]
生成モデルは、高逆状態反応領域や中間部分ゴールへエージェントを誘導する軌道を生成することによって意思決定システムに組み込むことができる。
本稿では,意思決定タスクにおける生成モデルの適用について概説する。
論文 参考訳(メタデータ) (2025-02-24T12:31:28Z) - Learning-based Models for Vulnerability Detection: An Extensive Study [3.1317409221921144]
我々は、最先端の学習ベースアプローチの2つのタイプを広範かつ包括的に調査する。
本稿では,シーケンスベースモデルの優先度と,グラフベースモデルの限定能力について実験的に検証する。
論文 参考訳(メタデータ) (2024-08-14T13:01:30Z) - Revisiting Implicit Models: Sparsity Trade-offs Capability in
Weight-tied Model for Vision Tasks [4.872984658007499]
ディープ平衡モデル(Deep Equilibrium Models, DEQ)のような暗黙のモデルは、無限層のモデルを訓練する能力によって、コミュニティにおいて大きな注目を集めている。
暗黙のモデルの行を再検討し、それらを元の重み付けモデルに遡る。
驚くべきことに、重み付けモデルの方がDECの変種と比較して、より効率的で、安定であり、視覚タスク上でも効率的である。
論文 参考訳(メタデータ) (2023-07-16T11:45:35Z) - Minimal Value-Equivalent Partial Models for Scalable and Robust Planning
in Lifelong Reinforcement Learning [56.50123642237106]
モデルに基づく強化学習における一般的な実践は、エージェントの環境のあらゆる側面をモデル化するモデルを学ぶことである。
このようなモデルは、生涯にわたる強化学習シナリオにおいて、スケーラブルで堅牢な計画を実行するのに特に適していない、と我々は主張する。
我々は,「最小値部分モデル」と呼ぶ,環境の関連する側面のみをモデル化する新しい種類のモデルを提案する。
論文 参考訳(メタデータ) (2023-01-24T16:40:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。