論文の概要: A Technical Study into Small Reasoning Language Models
- arxiv url: http://arxiv.org/abs/2506.13404v1
- Date: Mon, 16 Jun 2025 12:18:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:48.305326
- Title: A Technical Study into Small Reasoning Language Models
- Title(参考訳): 小型推論言語モデルに関する技術的検討
- Authors: Xialie Zhuang, Peixian Ma, Zhikai Jia, Zheng Cao, Shiwei Liu,
- Abstract要約: 約0.5億のパラメータを持つ小型推論言語モデル (SRLM) は、計算効率とコスト効率が優れており、魅力的な代替手段となる。
本研究では, 教師付き微調整(SFT), 知識蒸留(KD), 強化学習(RL)など, 各種トレーニング戦略について検討し, 0.5B SRLMの性能向上を図る。
- 参考スコア(独自算出の注目度): 20.004980571905463
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The ongoing evolution of language models has led to the development of large-scale architectures that demonstrate exceptional performance across a wide range of tasks. However, these models come with significant computational and energy demands, as well as potential privacy implications. In this context, Small Reasoning Language Models (SRLMs) with approximately 0.5 billion parameters present a compelling alternative due to their remarkable computational efficiency and cost effectiveness, particularly in resource-constrained environments. Despite these advantages, the limited capacity of 0.5 billion parameter models poses challenges in handling complex tasks such as mathematical reasoning and code generation. This research investigates various training strategies, including supervised fine-tuning (SFT), knowledge distillation (KD), and reinforcement learning (RL), as well as their hybrid implementations, to enhance the performance of 0.5B SRLMs. We analyze effective methodologies to bridge the performance gap between SRLMS and larger models and present insights into optimal training pipelines tailored for these smaller architectures. Through extensive experimental validation and analysis, our work aims to provide actionable recommendations for maximizing the reasoning capabilities of 0.5B models.
- Abstract(参考訳): 言語モデルの継続的な進化は、広範囲のタスクで例外的なパフォーマンスを示す大規模アーキテクチャの開発につながった。
しかし、これらのモデルには大きな計算とエネルギーの要求と潜在的なプライバシーの影響が伴う。
この文脈では、およそ0.5億のパラメータを持つSmall Reasoning Language Models (SRLMs) が、特に資源制約のある環境では、計算効率とコスト効率が著しく向上している。
これらの利点にもかかわらず、0.5億のパラメータモデルの限られた能力は、数学的推論やコード生成といった複雑なタスクを扱う際に困難をもたらす。
本研究では, 教師付き微調整(SFT), 知識蒸留(KD), 強化学習(RL), ハイブリッド実装など, 様々な訓練戦略について検討し, 0.5B SRLMの性能向上を図る。
SRLMSと大規模モデルのパフォーマンスギャップを埋める効果的な手法を解析し、これらのより小さなアーキテクチャに適した最適なトレーニングパイプラインに関する洞察を提供する。
実験的な検証と分析を通じて,0.5Bモデルの推論能力を最大化するための実用的なレコメンデーションを提供することが目的である。
関連論文リスト
- Vision-EKIPL: External Knowledge-Infused Policy Learning for Visual Reasoning [17.421901873720156]
本稿では,textbfVision-EKIPLと呼ばれる新しいRLフレームワークを提案する。
RLトレーニングプロセス中に外部補助モデルによって生成された高品質なアクションを導入し、ポリシーモデルの最適化を導く。
最先端(SOTA)と比較して、Reason-RFT-CoTベンチマークで最大5%の性能改善を実現している。
論文 参考訳(メタデータ) (2025-06-07T16:37:46Z) - How Difficulty-Aware Staged Reinforcement Learning Enhances LLMs' Reasoning Capabilities: A Preliminary Experimental Study [16.441081996257576]
本稿では,難易度の高い強化学習戦略が推論性能を大幅に向上させる方法について,厳密な実験的検討を行った。
本研究は,RLの最適化を著しく向上させることを特徴とする,明確な難易度に応じて,戦略的にトレーニングデータを選択することを示す。
私たちはデータセットをGitHubとHugging Faceでオープンソース化します。
論文 参考訳(メタデータ) (2025-04-01T14:18:38Z) - Systematic Weight Evaluation for Pruning Large Language Models: Enhancing Performance and Sustainability [1.542607498220242]
本研究は,トレーニング過程を通じて,個人の体重重大度を体系的に評価することに焦点を当てる。
性能を損なうことなくモデルサイズを効果的に削減する手法を提案する。
これらの発見は、持続可能な開発を保証するために最適化されたAIモデルの必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-02-24T11:34:49Z) - DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - Chain-of-Reasoning: Towards Unified Mathematical Reasoning in Large Language Models via a Multi-Paradigm Perspective [82.9413277326097]
CoR(Chain-of-Reasoning)は、複数の推論パラダイムを統合する新しい統合フレームワークである。
CoRは異なる推論パラダイムによって複数の潜在的な答えを生成し、それらをコヒーレントな最終解へと合成する。
実験の結果,CoR-Math-7Bは現在のSOTAモデルより有意に優れていた。
論文 参考訳(メタデータ) (2025-01-19T16:53:26Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Do Generative Large Language Models need billions of parameters? [0.0]
この研究は、モデルの異なる部分がパラメータを共有することを可能にする新しい方法を探究する。
このアプローチは、複雑な言語構造を学習し表現する能力を犠牲にすることなく、モデルがコンパクトであることを保証する。
論文 参考訳(メタデータ) (2023-09-12T20:25:22Z) - Sci-CoT: Leveraging Large Language Models for Enhanced Knowledge
Distillation in Small Models for Scientific QA [5.117094291273979]
大規模言語モデル(LLM)は、幅広い下流タスクで優れたパフォーマンスを示している。
本稿では2段階のフレームワークであるSci-CoTを提案する。
我々の8000万のパラメータモデルは、いくつかのショット設定の下でARC-EasyデータセットにおけるBLOOM-176Bの性能を上回ることができる。
論文 参考訳(メタデータ) (2023-08-09T03:18:07Z) - Minimal Value-Equivalent Partial Models for Scalable and Robust Planning
in Lifelong Reinforcement Learning [56.50123642237106]
モデルに基づく強化学習における一般的な実践は、エージェントの環境のあらゆる側面をモデル化するモデルを学ぶことである。
このようなモデルは、生涯にわたる強化学習シナリオにおいて、スケーラブルで堅牢な計画を実行するのに特に適していない、と我々は主張する。
我々は,「最小値部分モデル」と呼ぶ,環境の関連する側面のみをモデル化する新しい種類のモデルを提案する。
論文 参考訳(メタデータ) (2023-01-24T16:40:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。