論文の概要: Mi:dm K 2.5 Pro
- arxiv url: http://arxiv.org/abs/2603.18788v2
- Date: Tue, 24 Mar 2026 01:00:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 12:42:17.571164
- Title: Mi:dm K 2.5 Pro
- Title(参考訳): Mi:dm K 2.5 Pro
- Authors: KT Tech innovation Group,
- Abstract要約: Mi:dm K 2.5 Proはエンタープライズグレードの複雑さに対応するために設計されたフラッグシップLDMです。
我々の方法論は、品質中心のキュレーションパイプラインを通じて堅牢なデータ基盤を構築します。
Mi:dm K 2.5 Proは、主要なグローバルモデルと国内モデルとの競争性能を達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The evolving LLM landscape requires capabilities beyond simple text generation, prioritizing multi-step reasoning, long-context understanding, and agentic workflows. This shift challenges existing models in enterprise environments, especially in Korean-language and domain-specific scenarios where scaling is insufficient. We introduce Mi:dm K 2.5 Pro, a 32B parameter flagship LLM designed to address enterprise-grade complexity through reasoning-focused optimization. Our methodology builds a robust data foundation via a quality-centric curation pipeline utilizing abstract syntax tree (AST) analysis for code, gap-filling synthesis for mathematics, and an LLM-based quality evaluator. Pre-training scales the model via layer-predictor-based Depth Upscaling (DuS) and a progressive strategy supporting a 128K token context window. Post-training introduces a specialized multi-stage pipeline, including Reasoning SFT, model merging, and asynchronous reinforcement learning (RL), to develop complex problem-solving skills. "Fusion Training" then rebalances these capabilities with conversational fluency, consistent response styling, and reliable tool-use. The evaluations show that Mi:dm K 2.5 Pro achieves competitive performance against leading global and domestic models. In addition, it sets state-of-the-art results on Korean-specific benchmarks, showcasing deep linguistic and cultural understanding. Finally, Responsible AI evaluations validate safety against attacks, ensuring a secure profile for deployment with a balance of harmlessness and responsiveness.
- Abstract(参考訳): 進化するLLMのランドスケープは、単純なテキスト生成以上の機能、多段階推論、長いコンテキスト理解、エージェントワークフローの優先順位付けを必要とする。
このシフトは、企業環境、特にスケーリングが不十分な韓国語およびドメイン固有のシナリオにおいて、既存のモデルに挑戦する。
そこで我々はMi:dm K 2.5 Proを紹介した。Mi:dm K 2.5 Proは32Bパラメータのフラッグシップであり、推論に焦点をあてた最適化によってエンタープライズグレードの複雑さに対処するように設計されている。
本手法は,抽象構文木(AST)解析,数学のギャップ充足合成,LLMに基づく品質評価を用いた品質中心キュレーションパイプラインを用いて,ロバストなデータ基盤を構築する。
事前トレーニングでは、レイヤ予測ベースのDuS(Depth Upscaling)と、128Kトークンコンテキストウィンドウをサポートするプログレッシブ戦略を通じてモデルをスケールする。
ポストトレーニングでは、複雑な問題解決スキルを開発するために、Reasoning SFT、モデルマージ、非同期強化学習(RL)など、特殊なマルチステージパイプラインが導入されている。
フュージョントレーニング」は、これらの能力を会話の流布、一貫した応答スタイリング、信頼性の高いツール利用と再バランスさせる。
評価の結果、Mi:dm K 2.5 Proは主要なグローバルモデルや国内モデルと競合する性能を示した。
さらに、韓国固有のベンチマークに最先端の結果を設定し、言語と文化の深い理解を示す。
最後に、Responsible AI評価は、攻撃に対する安全性を検証する。
関連論文リスト
- Decouple to Generalize: Context-First Self-Evolving Learning for Data-Scarce Vision-Language Reasoning [41.523848964102]
最近の視覚言語モデル(VLM)は強化学習(RL)を通して顕著な推論を実現する
RLは、経験の時代に連続的に進化する大規模視覚言語モデル(LVLM)を実現するための実現可能なソリューションを提供する。
合成データや自己回帰機構といった既存の戦略は、限られた分布とアライメントの困難に悩まされている。
問題解決ではなく,まず文脈から学習するようにモデルに誘導する,二重分離フレームワークDoGeを提案する。
論文 参考訳(メタデータ) (2025-12-07T13:17:31Z) - VeriMoA: A Mixture-of-Agents Framework for Spec-to-HDL Generation [22.276878955961504]
大きな言語モデル(LLM)はハードウェア記述言語(HDL)の生成を約束するが、パラメトリック知識の制限とドメイン固有の制約のために困難に直面している。
We propose VeriMoA, a training-free mixed-of-agents framework with two synergistic innovations。
論文 参考訳(メタデータ) (2025-10-31T16:40:58Z) - Large Language Model enabled Mathematical Modeling [2.132096006921049]
本研究では,Large Language Models (LLMs) の自然言語理解とコード生成による定式化ギャップを埋める可能性について検討する。
DeepSeek-R1は、強化学習で訓練された費用効率で高性能なモデルである。
本手法は,基礎的評価,幻覚分類の発達,緩和戦略の適用を含む。
論文 参考訳(メタデータ) (2025-10-22T17:41:42Z) - MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization [103.74675519953898]
ロングチェーンのリフレクティブ推論は、複雑な現実世界の問題を解決するための前提条件である。
我々は42の難解な合成タスクの1,260のサンプルからなるベンチマークを構築した。
トレーニング後のデータを生成し、そのようなデータを活用するための学習パラダイムを探索する。
論文 参考訳(メタデータ) (2025-10-09T17:53:58Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - Semantic Consistency Regularization with Large Language Models for Semi-supervised Sentiment Analysis [20.503153899462323]
本稿では,半教師付き感情分析のためのフレームワークを提案する。
テキストを意味的に拡張する2つのプロンプト戦略を導入する。
実験により,従来の半教師付き手法よりも優れた性能が得られた。
論文 参考訳(メタデータ) (2025-01-29T12:03:11Z) - A Text-Based Knowledge-Embedded Soft Sensing Modeling Approach for General Industrial Process Tasks Based on Large Language Model [16.842988666530204]
データ駆動型ソフトセンサー(DDSS)は、プロセス産業において重要なパフォーマンス指標を予測する主要な手法となっている。
開発には、モデリングプロセス中に様々なタスクに合わせてカスタマイズされた複雑でコストがかかる設計が必要である。
本稿では,LLM-TKESS(テキストベース知識埋め込み型ソフトセンシングのための大規模言語モデル)というフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-09T08:59:14Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。