論文の概要: K2-V2: A 360-Open, Reasoning-Enhanced LLM
- arxiv url: http://arxiv.org/abs/2512.06201v1
- Date: Fri, 05 Dec 2025 22:53:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.234848
- Title: K2-V2: A 360-Open, Reasoning-Enhanced LLM
- Title(参考訳): K2-V2:360度開放型推論型LDM
- Authors: K2 Team, Zhengzhong Liu, Liping Tang, Linghao Jin, Haonan Li, Nikhil Ranjan, Desai Fan, Shaurya Rohatgi, Richard Fan, Omkar Pangarkar, Huijuan Wang, Zhoujun Cheng, Suqi Sun, Seungwook Han, Bowen Tan, Gurpreet Gosal, Xudong Han, Varad Pimpalkhute, Shibo Hao, Ming Shan Hee, Joel Hestness, Haolong Jia, Liqun Ma, Aaryamonvikram Singh, Daria Soboleva, Natalia Vassilieva, Renxi Wang, Yingquan Wu, Yuekai Sun, Taylor Killian, Alexander Moreno, John Maggs, Hector Ren, Guowei He, Hongyi Wang, Xuezhe Ma, Yuqi Wang, Mikhail Yurochkin, Eric P. Xing,
- Abstract要約: K2-V2は,スクラッチから構築した360度オープンLCMで,推論適応のための優れた基盤となる。
これはQwen2.5-72Bを上回り、Qwen3-235Bの性能に近づいている。
- 参考スコア(独自算出の注目度): 89.6521291566138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce K2-V2, a 360-open LLM built from scratch as a superior base for reasoning adaptation, in addition to functions such as conversation and knowledge retrieval from general LLMs. It stands as the strongest fully open model, rivals open-weight leaders in its size class, outperforms Qwen2.5-72B and approaches the performance of Qwen3-235B. We actively infuse domain knowledge, reasoning, long-context, and tool use throughout the training process. This explicitly prepares the model for complex reasoning tasks. We demonstrate this potential using simple supervised fine-tuning, establishing a strong baseline that indicates significant headroom for advanced alignment. By releasing the full training history and data composition, we maximize the effectiveness of continuous training, a key open source production scenario. We release the model weights and signature LLM360 artifacts, such as complete training data, to empower the community with a capable, reasoning-centric foundation.
- Abstract(参考訳): 一般的なLLMの会話や知識検索などの機能に加えて,スクラッチから構築した360度オープンなLLMであるK2-V2を紹介する。
これはQwen2.5-72Bを上回り、Qwen3-235Bの性能に近づいている。
トレーニングプロセスを通じて、ドメインの知識、推論、長いコンテキスト、ツールの使用を積極的に注入します。
これは、複雑な推論タスクのためのモデルを明示的に準備する。
簡単な教師付き微調整を用いてこの可能性を実証し、高度アライメントのための重要なヘッドルームを示す強力なベースラインを確立する。
トレーニング履歴とデータ構成の完全なリリースによって、重要なオープンソース生産シナリオである継続的トレーニングの有効性を最大化します。
モデルウェイトとLLM360アーティファクト(完全なトレーニングデータなど)を公開し、有能で推論中心の基盤をコミュニティに提供します。
関連論文リスト
- Ariadne: A Controllable Framework for Probing and Extending VLM Reasoning Boundaries [23.825984868116716]
多段階空間推論のための合成迷路を利用したフレームワークであるAriadneを紹介する。
我々は、この制御可能な環境を利用して、難易度を意識したカリキュラムにおいて、Reinforcement Learning with Verified Rewards(RLVR)を用いて視覚言語モデル(VLM)を訓練する。
驚くべきことに、VLMはRLVR後のトレーニングにおいて、ベースモデルが0%となる問題セットに対して50%以上の精度を達成する。
論文 参考訳(メタデータ) (2025-11-01T21:19:41Z) - e3: Learning to Explore Enables Extrapolation of Test-Time Compute for LLMs [49.01449646799905]
既存の推論モデルでは外挿がうまく行われていないことが示される。
レシピ e3 は AIME'25 と HMMT'25 のスコアに基づいて最もよく知られた 1.7B モデルを生成する。
e3-1.7Bモデルは、高いpass@1スコアを得るだけでなく、ベースモデルよりもpass@kを改善する。
論文 参考訳(メタデータ) (2025-06-10T17:52:42Z) - S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - LLM360 K2: Building a 65B 360-Open-Source Large Language Model from Scratch [77.02136168850532]
我々は、LLM360 K2-65Bモデルのトレーニングについて詳述し、私たちの360度OPEN SOURCEアプローチを、プロジェクトLLM360の下で最大かつ最も強力なモデルにスケールアップした。
論文 参考訳(メタデータ) (2025-01-13T08:26:43Z) - 7B Fully Open Source Moxin-LLM/VLM -- From Pretraining to GRPO-based Reinforcement Learning Enhancement [41.463611054440435]
Moxin 7Bは、オープンサイエンス、オープンソース、オープンデータ、オープンアクセスの原則に準拠した、完全にオープンソースのLarge Language Models (LLM) である。
トレーニング済みのコードと設定、トレーニングと微調整のデータセット、中間および最終チェックポイントをリリースします。
実験により, ゼロショット評価, 少数ショット評価, CoT評価など, 各種評価において, 優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2024-12-08T02:01:46Z) - Balancing Continuous Pre-Training and Instruction Fine-Tuning: Optimizing Instruction-Following in LLMs [4.096028601599825]
パブリック使用のための大規模言語モデル(LLM)は、最新のデータと最新の状態を維持するために、継続的な事前トレーニングを必要とする。
本研究では、命令データや微調整を必要とせず、最新の知識と命令追従能力を得るための最も計算効率の良い戦略を見つけることを目的とする。
論文 参考訳(メタデータ) (2024-10-14T17:20:30Z) - InternLM2 Technical Report [159.70692271378581]
本稿では,オープンソースのLarge Language Models (LLM) であるInternLM2を紹介する。
InternLM2の事前トレーニングプロセスは細部まで詳細に書かれており、多様なデータ型の準備が強調されている。
InternLM2は、4kトークンでトレーニングされた長期的依存関係を効率的にキャプチャし、事前トレーニングおよび微調整の段階で32kトークンに進む。
論文 参考訳(メタデータ) (2024-03-26T00:53:24Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。