論文の概要: K2-Think: A Parameter-Efficient Reasoning System
- arxiv url: http://arxiv.org/abs/2509.07604v1
- Date: Tue, 09 Sep 2025 11:25:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.280668
- Title: K2-Think: A Parameter-Efficient Reasoning System
- Title(参考訳): K2-Think:パラメータ効率の良い推論システム
- Authors: Zhoujun Cheng, Richard Fan, Shibo Hao, Taylor W. Killian, Haonan Li, Suqi Sun, Hector Ren, Alexander Moreno, Daqian Zhang, Tianjun Zhong, Yuxin Xiong, Yuanzhe Hu, Yutao Xie, Xudong Han, Yuqi Wang, Varad Pimpalkhute, Yonghao Zhuang, Aaryamonvikram Singh, Xuezhi Liang, Anze Xie, Jianshu She, Desai Fan, Chengqian Gao, Liqun Ma, Mikhail Yurochkin, John Maggs, Xuezhe Ma, Guowei He, Zhiting Hu, Zhengzhong Liu, Eric P. Xing,
- Abstract要約: K2-Thinkは32Bパラメータモデルを用いて最先端のパフォーマンスを実現する推論システムである。
本システムでは, 先進的なポストトレーニング技術とテストタイム技術を組み合わせることで, より小型のモデルが最上位で競争できることを示す。
K2-Thinkはk2think.aiで無料で利用可能で、クラス内の最高の推論速度はリクエスト1秒あたり2000トークン以上である。
- 参考スコア(独自算出の注目度): 80.62468969966133
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: K2-Think is a reasoning system that achieves state-of-the-art performance with a 32B parameter model, matching or surpassing much larger models like GPT-OSS 120B and DeepSeek v3.1. Built on the Qwen2.5 base model, our system shows that smaller models can compete at the highest levels by combining advanced post-training and test-time computation techniques. The approach is based on six key technical pillars: Long Chain-of-thought Supervised Finetuning, Reinforcement Learning with Verifiable Rewards (RLVR), Agentic planning prior to reasoning, Test-time Scaling, Speculative Decoding, and Inference-optimized Hardware, all using publicly available open-source datasets. K2-Think excels in mathematical reasoning, achieving state-of-the-art scores on public benchmarks for open-source models, while also performing strongly in other areas such as Code and Science. Our results confirm that a more parameter-efficient model like K2-Think 32B can compete with state-of-the-art systems through an integrated post-training recipe that includes long chain-of-thought training and strategic inference-time enhancements, making open-source reasoning systems more accessible and affordable. K2-Think is freely available at k2think.ai, offering best-in-class inference speeds of over 2,000 tokens per second per request via the Cerebras Wafer-Scale Engine.
- Abstract(参考訳): K2-Thinkは32Bパラメータモデルで最先端のパフォーマンスを達成し、GPT-OSS 120BやDeepSeek v3.1のようなより大きなモデルにマッチまたは超える推論システムである。
提案システムは,Qwen2.5ベースモデルに基づいて構築され,先進的なポストトレーニングとテストタイムの計算技術を組み合わせることで,より小型のモデルが最上位で競争できることを示す。
アプローチは、Long Chain-of-thinkt Supervised Finetuning、Reinforcement Learning with Verifiable Rewards (RLVR)、推理前のエージェント計画、テストタイムスケーリング、投機的デコーディング、推論最適化ハードウェアの6つの重要な技術柱に基づいており、いずれも公開されているオープンソースデータセットを使用している。
K2-Thinkは、数学的推論に優れ、オープンソースモデルの公開ベンチマークで最先端のスコアを獲得し、コードやサイエンスなどの他の分野でも強く機能する。
我々の結果は、K2-Think 32Bのようなパラメータ効率の高いモデルが、長いチェーンのトレーニングと戦略的推論時間の強化を含む統合されたポストトレーニングレシピによって、最先端のシステムと競合し、オープンソースの推論システムがよりアクセスしやすく、手頃な価格で利用可能であることを確認した。
K2-Thinkはk2think.aiで無料で利用可能であり、Cerebras Wafer-Scale Engineを介してリクエスト毎に2000トークン以上のクラス推論速度を提供する。
関連論文リスト
- KAT-V1: Kwai-AutoThink Technical Report [50.84483585850113]
Kwaipilot-AutoThink (KAT) はオープンソースの40B大言語モデルであり、推論集約タスクにおける過大な問題に対処するために開発された。
KATはタスクの複雑さに基づいて推論モードと非推論モードを動的に切り替える。
また、GRPOフレームワークに中間管理を組み込んだ強化学習アルゴリズムであるStep-SRPOを提案する。
論文 参考訳(メタデータ) (2025-07-11T04:07:10Z) - LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。
提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。
我々のフレームワークは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上させる。
論文 参考訳(メタデータ) (2025-05-22T16:22:54Z) - PTSBench: A Comprehensive Post-Training Sparsity Benchmark Towards Algorithms and Models [39.56594737760323]
PTSBenchは、アルゴリズムとモデルに対する最初の総合的なトレーニング後のスパーシリティベンチマークである。
我々は、40以上のオフザシェルフモデルアーキテクチャを用いて、典型的な3つのタスクに対して10以上のPTSの汎用プラガブルな細かなテクニックをベンチマークする。
PTSBench は,(1) PTS アルゴリズムをよりよく理解するための新たな観測,(2) モデルのスパーシフィケーション能力に関する詳細な,包括的な評価,(3) 十分に構造化された,容易に統合されたオープンソースフレームワークを提供する。
論文 参考訳(メタデータ) (2024-12-10T07:49:07Z) - The THUEE System Description for the IARPA OpenASR21 Challenge [12.458730613670316]
本稿では,IARPAオープン音声認識チャレンジ(OpenASR21)におけるTHUEEチームの音声認識システムについて述べる。
制約条件と制約条件の双方で優れた結果が得られた。
エンコーダ/デコーダに基づくCTC/Attention ASRアーキテクチャにwav2vec2.0事前学習モデルを適用する際には,特徴抽出器が重要な役割を果たすことがわかった。
論文 参考訳(メタデータ) (2022-06-29T14:03:05Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。