論文の概要: Holistic Capability Preservation: Towards Compact Yet Comprehensive Reasoning Models
- arxiv url: http://arxiv.org/abs/2504.07158v2
- Date: Fri, 11 Apr 2025 02:47:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 10:55:42.551683
- Title: Holistic Capability Preservation: Towards Compact Yet Comprehensive Reasoning Models
- Title(参考訳): Holistic Capability Preservation: コンパクトで包括的推論モデルを目指して
- Authors: Ling Team, Caizhi Tang, Chilin Fu, Chunwei Wu, Jia Guo, Jianwen Wang, Jingyu Hu, Liang Jiang, Meng Li, Peng Jiao, Pingping Liu, Shaomian Zheng, Shiwei Liang, Shuaicheng Li, Yalin Zhang, Yingting Wu, Yongkang Liu, Zhenyu Huang,
- Abstract要約: Ring-Lite-Distillは、オープンソースのMixture-of-Experts (MoE) Large Language Models (LLMs) Ling-Liteから派生した軽量な推論モデルです。
本研究では,厳密な高品質なデータキュレーションと創発的なトレーニングパラダイムを通じて,コンパクトなMoEモデルLing-Liteをさらに訓練して,例外的な推論能力を実現することを実証する。
- 参考スコア(独自算出の注目度): 18.93465830896206
- License:
- Abstract: This technical report presents Ring-Lite-Distill, a lightweight reasoning model derived from our open-source Mixture-of-Experts (MoE) Large Language Models (LLMs) Ling-Lite. This study demonstrates that through meticulous high-quality data curation and ingenious training paradigms, the compact MoE model Ling-Lite can be further trained to achieve exceptional reasoning capabilities, while maintaining its parameter-efficient architecture with only 2.75 billion activated parameters, establishing an efficient lightweight reasoning architecture. In particular, in constructing this model, we have not merely focused on enhancing advanced reasoning capabilities, exemplified by high-difficulty mathematical problem solving, but rather aimed to develop a reasoning model with more comprehensive competency coverage. Our approach ensures coverage across reasoning tasks of varying difficulty levels while preserving generic capabilities, such as instruction following, tool use, and knowledge retention. We show that, Ring-Lite-Distill's reasoning ability reaches a level comparable to DeepSeek-R1-Distill-Qwen-7B, while its general capabilities significantly surpass those of DeepSeek-R1-Distill-Qwen-7B. The models are accessible at https://huggingface.co/inclusionAI
- Abstract(参考訳): 本稿では,オープンソースのMixture-of-Experts (MoE) Large Language Models (LLMs) Ling-Liteから派生した軽量推論モデルであるRing-Lite-Distillについて述べる。
本研究は、厳密な高品質データキュレーションと創発的な訓練パラダイムを通じて、コンパクトなMoEモデルLing-Liteをさらに訓練して、パラメータ効率の高いアーキテクチャをわずか275億個の活性化パラメータで維持し、効率的な軽量な推論アーキテクチャを確立することを実証する。
特に、このモデルを構築する際には、高度に微分可能な数学的問題解決によって実証される高度な推論能力の向上に焦点をあてるだけでなく、より包括的な能力を持つ推論モデルを開発することを目的としている。
提案手法は,指示追従,ツール使用,知識保持といった汎用的な能力を維持しつつ,難易度が異なる推論タスクのカバレッジを確保する。
その結果,Ring-Lite-Distillの推理能力はDeepSeek-R1-Distill-Qwen-7Bに匹敵するレベルに達した。
モデルはhttps://huggingface.co/inclusionAIでアクセスできます
関連論文リスト
- AlphaMaze: Enhancing Large Language Models' Spatial Intelligence via GRPO [0.0]
大きな言語モデル(LLM)は、言語処理において印象的な能力を示してきたが、視覚的な空間的推論を必要とするタスクにしばしば苦労している。
迷路ナビゲーションのための視覚的推論能力を備えた標準LLMの2段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-20T16:05:18Z) - Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective [77.94874338927492]
OpenAIは、o1の背後にある主要な技術は強化学習であると主張している。
本稿では、強化学習の観点から、o1を達成するためのロードマップを分析する。
論文 参考訳(メタデータ) (2024-12-18T18:24:47Z) - Fine-Tuning and Deploying Large Language Models Over Edges: Issues and Approaches [64.42735183056062]
大規模言語モデル(LLM)は、特殊モデルから多目的基礎モデルへと移行してきた。
LLMは印象的なゼロショット能力を示すが、ローカルデータセットとデプロイメントのための重要なリソースを微調整する必要がある。
論文 参考訳(メタデータ) (2024-08-20T09:42:17Z) - Weak-to-Strong Reasoning [33.20094938292376]
我々は、強力なモデルを自律的に訓練データを洗練させるプログレッシブラーニングフレームワークを導入する。
3つの弱いモデルを用いてLlama2-70bの推論能力を大幅に向上させる。
この作業は、AI推論能力を強化するための、よりスケーラブルで洗練された戦略の道を開くものだ。
論文 参考訳(メタデータ) (2024-07-18T16:25:17Z) - Mixture of insighTful Experts (MoTE): The Synergy of Thought Chains and Expert Mixtures in Self-Alignment [103.05005690990271]
本稿では,自己アライメントを改善するために,推論チェーンとエキスパートミックスを組み合わせた新しいフレームワークを提案する。
MoTEは、質問分析、回答ガイダンス、安全回答、安全チェックの4つの主要なステージからなる構造化推論チェーンを採用している。
MoTEはモデルの安全性、脱獄耐性、過剰な拒否機能を大幅に改善し、OpenAIの最先端のo1モデルに匹敵するパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-01T15:06:05Z) - U2++ MoE: Scaling 4.7x parameters with minimal impact on RTF [10.81723269312202]
Mixture-of-Experts (MoE) は、より大きく、より有能な言語モデルへのエネルギー効率の良い経路として提案されている。
提案したモデルを大規模インナーソースデータセット(160k時間)でベンチマークする。
論文 参考訳(メタデータ) (2024-04-25T08:34:21Z) - Intuition-aware Mixture-of-Rank-1-Experts for Parameter Efficient Finetuning [50.73666458313015]
大規模言語モデル(LLM)はマルチメディアアプリケーションで複数のタスクを実行する上で大きな可能性を証明している。
MoEは、効率的なタスクデカップリングのためのスパースアーキテクチャによる有望なソリューションとして登場した。
Intuition-MoR1Eは14のパブリックデータセットで優れた効率と2.15%の全体的な精度向上を実現している。
論文 参考訳(メタデータ) (2024-04-13T12:14:58Z) - Building Minimal and Reusable Causal State Abstractions for
Reinforcement Learning [63.58935783293342]
Causal Bisimulation Modeling (CBM) は、各タスクのダイナミクスと報酬関数の因果関係を学習し、最小限のタスク固有の抽象化を導出する手法である。
CBMの学習された暗黙的ダイナミクスモデルは、明確なものよりも根底にある因果関係と状態抽象化を正確に識別する。
論文 参考訳(メタデータ) (2024-01-23T05:43:15Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Sci-CoT: Leveraging Large Language Models for Enhanced Knowledge
Distillation in Small Models for Scientific QA [5.117094291273979]
大規模言語モデル(LLM)は、幅広い下流タスクで優れたパフォーマンスを示している。
本稿では2段階のフレームワークであるSci-CoTを提案する。
我々の8000万のパラメータモデルは、いくつかのショット設定の下でARC-EasyデータセットにおけるBLOOM-176Bの性能を上回ることができる。
論文 参考訳(メタデータ) (2023-08-09T03:18:07Z) - Unsupervised Object-Centric Learning with Bi-Level Optimized Query Slot
Attention [26.25900877220557]
Slot-Attentionモジュールはシンプルだが効果的な設計で重要な役割を担い、多くの強力な変種を育ててきた。
本稿では、学習可能なクエリでSlot-Attentionモジュールを初期化し、(2)バイレベル最適化でモデルを最適化することで、これらの問題を解決することを提案する。
本モデルでは、教師なし画像分割と再構成において、合成と複雑な実世界の両方のデータセットに対して最先端の結果が得られる。
論文 参考訳(メタデータ) (2022-10-17T12:14:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。