論文の概要: A Short Survey on Small Reasoning Models: Training, Inference, Applications and Research Directions
- arxiv url: http://arxiv.org/abs/2504.09100v1
- Date: Sat, 12 Apr 2025 06:45:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-24 13:45:48.418449
- Title: A Short Survey on Small Reasoning Models: Training, Inference, Applications and Research Directions
- Title(参考訳): 小推論モデルに関する短い調査--学習・推論・応用・研究の方向性
- Authors: Chengyu Wang, Taolin Zhang, Richang Hong, Jun Huang,
- Abstract要約: 大きな推論モデル(LRM)の推論能力は、ゆっくりとした思考プロセスを通じて著しく進歩している。
対照的に、より大きなものから蒸留される小さな推論モデル(SRM)は、より効率が高く、異なる能力を示すことができる。
- 参考スコア(独自算出の注目度): 42.77077835885798
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the reasoning capabilities of large reasoning models (LRMs), such as DeepSeek-R1, have seen significant advancements through the slow thinking process. Despite these achievements, the substantial computational demands of LRMs present considerable challenges. In contrast, small reasoning models (SRMs), often distilled from larger ones, offer greater efficiency and can exhibit distinct capabilities and cognitive trajectories compared to LRMs. This work surveys around 170 recently published papers on SRMs for tackling various complex reasoning tasks. We review the current landscape of SRMs and analyze diverse training and inference techniques related to SRMs. Furthermore, we provide a comprehensive review of SRMs for domain-specific applications and discuss possible future research directions. This survey serves as an essential reference for researchers to leverage or develop SRMs for advanced reasoning functionalities with high efficiency.
- Abstract(参考訳): 近年、DeepSeek-R1のような大きな推論モデル(LRM)の推論能力は、ゆっくりとした思考プロセスを通じて著しく進歩している。
これらの成果にもかかわらず、LRMの相当な計算要求は、かなりの課題を呈している。
対照的に、しばしば大きなものから蒸留される小さな推論モデル(SRM)は、より効率が高く、LEMとは異なる能力と認知軌道を示す。
この調査は、様々な複雑な推論タスクに取り組むためのSRMに関する170件の論文を最近公表した。
我々は、SRMの現状を概観し、SRMに関連する多様なトレーニングおよび推論技術を分析した。
さらに、ドメイン固有のアプリケーションに対するSRMの総合的なレビューを行い、今後の研究の方向性について論じる。
この調査は、研究者が高い効率で高度な推論機能のためにSRMを活用または開発するための重要な基準となっている。
関連論文リスト
- 100 Days After DeepSeek-R1: A Survey on Replication Studies and More Directions for Reasoning Language Models [58.98176123850354]
最近のDeepSeek-R1のリリースは、広く社会的影響をもたらし、言語モデルの明確な推論パラダイムを探求する研究コミュニティに熱意を喚起した。
リリースされたモデルの実装詳細は、DeepSeek-R1-Zero、DeepSeek-R1、蒸留された小型モデルなど、DeepSeekによって完全にオープンソース化されていない。
多くのレプリケーション研究は、DeepSeek-R1が達成した強力なパフォーマンスを再現することを目的として、同様のトレーニング手順と完全なオープンソースデータリソースを通じて、同等のパフォーマンスに到達している。
論文 参考訳(メタデータ) (2025-05-01T14:28:35Z) - Revisiting Prompt Optimization with Large Reasoning Models-A Case Study on Event Extraction [8.88001387249786]
DeepSeek-R1やOpenAI o1のような大きな推論モデル(LRM)は、様々な推論タスクにおいて顕著な能力を示している。
中間的な思考を創造し、推論する強力な能力は、人間の指示を解釈するために、より広範な急進的な工学や最適化をもはや必要としないかもしれないという議論につながった。
本研究では,イベント抽出の構造化課題を事例スタディとして,このオープンな質問を体系的に研究することを目的とする。
論文 参考訳(メタデータ) (2025-04-10T00:53:59Z) - ReaRAG: Knowledge-guided Reasoning Enhances Factuality of Large Reasoning Models with Iterative Retrieval Augmented Generation [38.64751082999587]
大きな推論モデル(LRM)は、顕著な推論能力を示すが、主にパラメトリック知識に依存し、事実の正確性を制限する。
本稿では,過剰な反復を伴わない多様なクエリを探索する,事実性強化推論モデルReaRAGを提案する。
我々の研究は、レトリーバル強化世代(RAG)のロバスト推論を効果的に統合しつつ、LRMの事実性を向上する。
論文 参考訳(メタデータ) (2025-03-27T17:44:18Z) - A Survey of Efficient Reasoning for Large Reasoning Models: Language, Multimodality, and Beyond [88.5807076505261]
大規模推論モデル (LRM) は, 推論中におけるチェーン・オブ・ソート (CoT) の推論長を拡大することにより, 高い性能向上を示した。
懸念が高まっているのは、過度に長い推論の痕跡を生み出す傾向にある。
この非効率性は、トレーニング、推論、現実のデプロイメントに重大な課題をもたらす。
論文 参考訳(メタデータ) (2025-03-27T15:36:30Z) - Trade-offs in Large Reasoning Models: An Empirical Analysis of Deliberative and Adaptive Reasoning over Foundational Capabilities [101.77467538102924]
近年のLRM(Large Reasoning Models)の進歩は、特殊推論タスクにおいて顕著な性能を示している。
議論的推論能力の獲得は, LRMの基礎的能力を大幅に低下させることを示す。
適応推論(Zero-Thinking, Less-Thinking, Summary-Thinking)がこれらの欠点を効果的に軽減できることを示します。
論文 参考訳(メタデータ) (2025-03-23T08:18:51Z) - Large Reasoning Models in Agent Scenarios: Exploring the Necessity of Reasoning Capabilities [74.35956310688164]
ツール利用,計画設計,問題解決の9つのタスクを含むLaRMAフレームワークを提案する。
LRMは計画設計のような推論集約的なタスクにおいてLLMを超越し、反復反射を優れた結果に活用する、という4つの研究課題に対処する。
LRMの強化された推論は、過剰思考や事実を無視した傾向を含む高い計算コスト、長い処理、行動上の問題を引き起こす。
論文 参考訳(メタデータ) (2025-03-14T04:34:31Z) - Retrieval-Augmented Process Reward Model for Generalizable Mathematical Reasoning [32.850036320802474]
本稿では,OOD問題に対処するための新しいフレームワークであるRetrieval-Augmented Process Reward Model(RetrievalPRM)を紹介する。
RetrievalPRMは2段階の検索強化機構を利用して、セマンティックに類似した質問やステップをウォームアップとして検索する。
我々の実験では、RetrievalPRMは複数の実世界のデータセットで既存のベースラインを上回ります。
論文 参考訳(メタデータ) (2025-02-20T08:40:09Z) - From Linguistic Giants to Sensory Maestros: A Survey on Cross-Modal Reasoning with Large Language Models [56.9134620424985]
クロスモーダル推論(CMR)は、より高度な人工知能システムへの進化における重要な能力として、ますます認識されている。
CMRタスクに取り組むためにLLM(Large Language Models)をデプロイする最近のトレンドは、その有効性を高めるためのアプローチの新たな主流となっている。
本調査では,LLMを用いてCMRで適用された現在の方法論を,詳細な3階層分類に分類する。
論文 参考訳(メタデータ) (2024-09-19T02:51:54Z) - Hierarchies of Reward Machines [75.55324974788475]
リワードマシン(Reward Machine, RM)は、有限状態機械による強化学習タスクの報酬関数を表現するための最近の形式である。
本稿では,RMを他のRMを呼ばせることによって,サブタスク構造をさらに抽象化する形式的手法を提案する。
論文 参考訳(メタデータ) (2022-05-31T12:39:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。