論文の概要: PCMind-2.1-Kaiyuan-2B Technical Report
- arxiv url: http://arxiv.org/abs/2512.07612v1
- Date: Mon, 08 Dec 2025 15:00:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.935807
- Title: PCMind-2.1-Kaiyuan-2B Technical Report
- Title(参考訳): PCMind-2.1-開元2B技術報告
- Authors: Kairong Luo, Zhenbo Sun, Xinyu Shi, Shengqi Chen, Bowen Yu, Yunyi Chen, Chenyi Dang, Hengtao Tao, Hui Wang, Fangming Liu, Kaifeng Lyu, Wenguang Chen,
- Abstract要約: 我々は,PCMind-2.1-Kaiyuan-2Bを紹介した。PCMind-2.1-Kaiyuan-2Bは,リソース制約下でのトレーニング効率と有効性の向上を目的とした,オープンソースの2ビリオンパラメータモデルである。
異種オープンソースデータセットを体系的に比較するQuantile Data Benchmarking法。
我々はApache 2.0ライセンスの下ですべての資産(モデルウェイト、データ、コードを含む)をhttps://huggingface.co/thu-pacman/PCMind-2.1-Kaiyuan-2Bでリリースします。
- 参考スコア(独自算出の注目度): 31.709484756045587
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The rapid advancement of Large Language Models (LLMs) has resulted in a significant knowledge gap between the open-source community and industry, primarily because the latter relies on closed-source, high-quality data and training recipes. To address this, we introduce PCMind-2.1-Kaiyuan-2B, a fully open-source 2-billion-parameter model focused on improving training efficiency and effectiveness under resource constraints. Our methodology includes three key innovations: a Quantile Data Benchmarking method for systematically comparing heterogeneous open-source datasets and providing insights on data mixing strategies; a Strategic Selective Repetition scheme within a multi-phase paradigm to effectively leverage sparse, high-quality data; and a Multi-Domain Curriculum Training policy that orders samples by quality. Supported by a highly optimized data preprocessing pipeline and architectural modifications for FP16 stability, Kaiyuan-2B achieves performance competitive with state-of-the-art fully open-source models, demonstrating practical and scalable solutions for resource-limited pretraining. We release all assets (including model weights, data, and code) under Apache 2.0 license at https://huggingface.co/thu-pacman/PCMind-2.1-Kaiyuan-2B.
- Abstract(参考訳): LLM(Large Language Models)の急速な進歩は、オープンソースコミュニティと業界の間に大きな知識ギャップをもたらしている。
そこで本研究では,PCMind-2.1-Kaiyuan-2Bを提案する。
提案手法には,異質なオープンソースデータセットを体系的に比較し,データ混合戦略に関する洞察を提供するQuantile Data Benchmarking法,スパースで高品質なデータを効果的に活用するためのストラテジック選択反復スキーム,品質でサンプルを注文するマルチドメインカリキュラムトレーニングポリシの3つの重要な革新が含まれている。
高度に最適化されたデータ前処理パイプラインと、FP16安定性のためのアーキテクチャ修正によって、Kayuan-2Bは、最先端の完全なオープンソースモデルと競合するパフォーマンスを実現し、リソース制限事前トレーニングのための実用的でスケーラブルなソリューションを実証している。
我々はApache 2.0ライセンスの下ですべての資産(モデルウェイト、データ、コードを含む)をhttps://huggingface.co/thu-pacman/PCMind-2.1-Kaiyuan-2Bでリリースします。
関連論文リスト
- Bridging VLMs and Embodied Intelligence with Deliberate Practice Policy Optimization [72.20212909644017]
Deliberate Practice Policy Optimization (DPPO) はメタ認知型メタループのトレーニングフレームワークである。
DPPOは教師付き微調整(能力拡張)と強化学習(技能向上)の交互に行う
実証的には、DPPO(Pelican-VL 1.0)で視覚言語を具現化したモデルをトレーニングすると、ベースモデルよりも20.3%パフォーマンスが向上する。
私たちはモデルとコードをオープンソースにして、データとリソースのボトルネックを軽減する最初の体系的なフレームワークを提供しています。
論文 参考訳(メタデータ) (2025-11-20T17:58:04Z) - Scaling Generalist Data-Analytic Agents [95.05161133349242]
DataMindは、汎用データ分析エージェントを構築するために設計されたスケーラブルなデータ合成およびエージェントトレーニングレシピである。
DataMindは、オープンソースのデータ分析エージェントを構築する上で重要な3つの課題に取り組む。
論文 参考訳(メタデータ) (2025-09-29T17:23:08Z) - MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources [113.33902847941941]
VAS (Variance-Aware Sampling) は、Variance Promotion Score (VPS) によって導かれるデータ選択戦略である。
我々は、1.6MのCoT冷間開始データと15kのRLQAペアを含む大規模かつ慎重にキュレートされたリソースをリリースする。
数学的推論ベンチマークによる実験では、キュレートされたデータと提案されたVASの有効性が示されている。
論文 参考訳(メタデータ) (2025-09-25T14:58:29Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - Scalability of Reinforcement Learning Methods for Dispatching in Semiconductor Frontend Fabs: A Comparison of Open-Source Models with Real Industry Datasets [40.434003972007744]
我々は,オープンソースのシミュレーションモデルと実業界データセットを比較し,最適化手法のスケーリング方法を評価する。
提案した進化戦略に基づく手法は、同等の政策段階に基づく手法よりもはるかに優れていることを示す。
進化戦略を用いて,2桁のタドネス向上と1桁のスループット向上を観察した。
論文 参考訳(メタデータ) (2025-05-16T11:32:29Z) - DACL-RAG: Data Augmentation Strategy with Curriculum Learning for Retrieval-Augmented Generation [54.26665681604041]
DACL-RAGは多段階データ拡張戦略と多段階学習パラダイムを組み合わせた多段階RAGトレーニングフレームワークである。
我々のフレームワークは、4つのオープンドメインQAデータセットで一貫した有効性を示し、複数の高度なメソッドに対して2%から4%のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-05-15T16:53:04Z) - Meta-rater: A Multi-dimensional Data Selection Method for Pre-training Language Models [7.61977883644433]
データ品質を評価するために,専門性,可読性,推論,清潔さの4つの側面を提案する。
学習した最適重み付けにより,これらの次元を既存の品質指標と統合する多次元データ選択手法であるMeta-raterを紹介する。
実験により、Meta-raterは1.3Bパラメータモデルの収束速度を2倍にし、下流タスク性能を3.23倍に改善し、7.2Bパラメータのモデルにスケールする利点がある。
論文 参考訳(メタデータ) (2025-04-19T06:12:33Z) - A High-Dimensional Statistical Method for Optimizing Transfer Quantities in Multi-Source Transfer Learning [19.59729349421865]
対象モデルを共同でトレーニングするために、各ソースタスクから必要なソースサンプルの最適な量は何か?
具体的には、K-Lの発散に基づく一般化誤差尺度を導入し、高次元統計解析に基づいて最小化し、各ソースタスクの最適転送量を決定する。
アーキテクチャに依存しないデータ効率のアルゴリズムOTQMSを開発し、マルチソーストランスファー学習におけるターゲットモデルトレーニングのための理論的結果を実装した。
論文 参考訳(メタデータ) (2025-02-06T17:32:49Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。