論文の概要: When Reasoning Beats Scale: A 1.5B Reasoning Model Outranks 13B LLMs as Discriminator
- arxiv url: http://arxiv.org/abs/2505.03786v1
- Date: Wed, 30 Apr 2025 17:27:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:35.803967
- Title: When Reasoning Beats Scale: A 1.5B Reasoning Model Outranks 13B LLMs as Discriminator
- Title(参考訳): 1.5BのReasoning Modelが13B LLMを判別器として出力
- Authors: Md Fahim Anjum,
- Abstract要約: 1.5B の蒸留パラメータ推論モデル (DeepSeek-R1) を, 最先端の非推論 LLM と比較した。
我々の中心的な仮説は、推論モデルは非共振LDMよりも効果的に識別できるというものである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLM) with reasoning capabilities offer a promising path for improving candidate evaluation in planning frameworks, but their relative performance against traditional non-reasoning models remains largely underexplored. In this study, we benchmark a distilled 1.5B parameter reasoning model (DeepSeek-R1) against several state-of-the-art non-reasoning LLMs within a generator-discriminator LLM planning framework for the text-to-SQL task. For this, we introduce a novel method for extracting soft scores from the chain-of-thought (CoT) outputs from reasoning that enables fine-grained ranking of candidates. Our central hypothesis is that reasoning models are more effective discriminators than non-reasoning LLMs. Our results show that distilled DeepSeek-R1-1.5B achieves up to $87\%$ higher F1 and $3.7\%$ better discrimination accuracy than CodeLlama-7B, as well as $3.7\%$ higher execution accuracy than CodeLlama-13B, despite having significantly fewer parameters. Furthermore, we find that there is a limit to the logical capabilities of reasoning models, and only providing more context or allowing more compute budget for reasoning is not enough to improve their discrimination performance. Finally, we demonstrate that, unlike non-reasoning LLMs, reasoning models find generation more challenging than discrimination and may underperform as generators compared to smaller non-reasoning LLMs. Our work highlights the potential of reasoning models as discriminators in agentic frameworks, far outweighing their capabilities as generators, offering insights into their optimal role within LLM planning infrastructures.
- Abstract(参考訳): 推論機能を備えた大規模言語モデル(LLM)は、計画フレームワークにおける候補評価を改善するための有望なパスを提供するが、従来の非推論モデルに対する相対的なパフォーマンスは、大半が未熟である。
本研究では,テキスト・トゥ・SQLタスクのためのジェネレータ・ディスクリミネータ LLM 計画フレームワークにおいて,1.5B パラメータ推論モデル (DeepSeek-R1) を,最先端の非推論 LLM と比較した。
そこで本研究では,候補の微粒なランク付けを可能にする推論から,CoT出力からソフトスコアを抽出する手法を提案する。
我々の中心的な仮説は、推論モデルは非共振LDMよりも効果的に識別できるというものである。
以上の結果から, 蒸留したDeepSeek-R1-1.5Bは, CodeLlama-7Bよりも高いF1値, 3.7\%値, 3.7\%値, パラメータが著しく少ないにもかかわらず, CodeLlama-13Bよりも高い実行精度が得られることがわかった。
さらに、推論モデルには論理的能力に制限があり、より多くのコンテキストを提供するか、推論のための計算予算を増やすだけでは識別性能を向上させるには不十分であることがわかった。
最後に、非共振型LLMとは異なり、推論モデルでは、識別よりも生成が難しく、より小さな非共振型LLMと比較して、ジェネレータとしての性能が劣る可能性があることを示す。
我々の研究は、エージェントフレームワークにおける差別者としての推論モデルの可能性を強調し、ジェネレータとしての能力をはるかに上回り、LLM計画インフラにおける彼らの最適な役割についての洞察を提供する。
関連論文リスト
- Guiding Reasoning in Small Language Models with LLM Assistance [23.3038074903744]
小さな言語モデルは、深く、多段階の論理的推論を必要とするタスクに適していると疑念を抱いた。
本稿では,Small Reasons, Large Hintsというフレームワークについて紹介する。
数学的推論データセットを用いた実験により, ターゲットとなる外部足場の性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2025-04-14T06:32:45Z) - SoftCoT: Soft Chain-of-Thought for Efficient Reasoning with LLMs [48.28847964704554]
CoT(Chain-of-Thought)推論により、LLM(Large Language Models)は複雑な推論タスクを解くことができる。
本稿では,LLMの変更を必要としない連続空間推論のための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:52:29Z) - Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。
LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。
複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文 参考訳(メタデータ) (2024-11-06T22:02:30Z) - PaD: Program-aided Distillation Can Teach Small Models Reasoning Better than Chain-of-thought Fine-tuning [20.59775450213501]
本稿では, 蒸留データの誤りを抑えるための推論プログラムを導入したPaD(Program-Aided Distillation)を提案する。
算術的推論,記号的推論,一般能力に基づいてPaDを評価する。
論文 参考訳(メタデータ) (2023-05-23T10:11:56Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。