Fugu-MT 論文翻訳(概要): When Reasoning Beats Scale: A 1.5B Reasoning Model Outranks 13B LLMs as Discriminator

論文の概要: When Reasoning Beats Scale: A 1.5B Reasoning Model Outranks 13B LLMs as Discriminator

arxiv url: http://arxiv.org/abs/2505.03786v1
Date: Wed, 30 Apr 2025 17:27:13 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-08 19:07:35.803967
Title: When Reasoning Beats Scale: A 1.5B Reasoning Model Outranks 13B LLMs as Discriminator
Title（参考訳）: 1.5BのReasoning Modelが13B LLMを判別器として出力
Authors: Md Fahim Anjum,
Abstract要約: 1.5B の蒸留パラメータ推論モデル (DeepSeek-R1) を, 最先端の非推論 LLM と比較した。我々の中心的な仮説は、推論モデルは非共振LDMよりも効果的に識別できるというものである。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLM) with reasoning capabilities offer a promising path for improving candidate evaluation in planning frameworks, but their relative performance against traditional non-reasoning models remains largely underexplored. In this study, we benchmark a distilled 1.5B parameter reasoning model (DeepSeek-R1) against several state-of-the-art non-reasoning LLMs within a generator-discriminator LLM planning framework for the text-to-SQL task. For this, we introduce a novel method for extracting soft scores from the chain-of-thought (CoT) outputs from reasoning that enables fine-grained ranking of candidates. Our central hypothesis is that reasoning models are more effective discriminators than non-reasoning LLMs. Our results show that distilled DeepSeek-R1-1.5B achieves up to $87\%$ higher F1 and $3.7\%$ better discrimination accuracy than CodeLlama-7B, as well as $3.7\%$ higher execution accuracy than CodeLlama-13B, despite having significantly fewer parameters. Furthermore, we find that there is a limit to the logical capabilities of reasoning models, and only providing more context or allowing more compute budget for reasoning is not enough to improve their discrimination performance. Finally, we demonstrate that, unlike non-reasoning LLMs, reasoning models find generation more challenging than discrimination and may underperform as generators compared to smaller non-reasoning LLMs. Our work highlights the potential of reasoning models as discriminators in agentic frameworks, far outweighing their capabilities as generators, offering insights into their optimal role within LLM planning infrastructures.
Abstract（参考訳）: 推論機能を備えた大規模言語モデル(LLM)は、計画フレームワークにおける候補評価を改善するための有望なパスを提供するが、従来の非推論モデルに対する相対的なパフォーマンスは、大半が未熟である。本研究では,テキスト・トゥ・SQLタスクのためのジェネレータ・ディスクリミネータ LLM 計画フレームワークにおいて,1.5B パラメータ推論モデル (DeepSeek-R1) を,最先端の非推論 LLM と比較した。そこで本研究では,候補の微粒なランク付けを可能にする推論から,CoT出力からソフトスコアを抽出する手法を提案する。我々の中心的な仮説は、推論モデルは非共振LDMよりも効果的に識別できるというものである。以上の結果から, 蒸留したDeepSeek-R1-1.5Bは, CodeLlama-7Bよりも高いF1値, 3.7\%値, 3.7\%値, パラメータが著しく少ないにもかかわらず, CodeLlama-13Bよりも高い実行精度が得られることがわかった。さらに、推論モデルには論理的能力に制限があり、より多くのコンテキストを提供するか、推論のための計算予算を増やすだけでは識別性能を向上させるには不十分であることがわかった。最後に、非共振型LLMとは異なり、推論モデルでは、識別よりも生成が難しく、より小さな非共振型LLMと比較して、ジェネレータとしての性能が劣る可能性があることを示す。我々の研究は、エージェントフレームワークにおける差別者としての推論モデルの可能性を強調し、ジェネレータとしての能力をはるかに上回り、LLM計画インフラにおける彼らの最適な役割についての洞察を提供する。

関連論文リスト

Revisiting LLM Reasoning via Information Bottleneck [57.519119962528166]
大規模言語モデル(LLM)は、最近、検証可能な報酬付き強化学習(RLVR)を通じて推論能力の顕著な進歩を示した。本稿では,情報ボトルネック(IB)の原理に基づくLLM推論の理論的特徴について述べる。 IB対応推論最適化(IBRO)を提案する。
論文参考訳（メタデータ） (2025-07-24T13:14:25Z)
Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文参考訳（メタデータ） (2025-06-16T10:32:10Z)
LENSLLM: Unveiling Fine-Tuning Dynamics for LLM Selection [11.353302879735862]
オープンソースのLarge Language Models (LLM) と様々な下流タスクは効率的なモデル選択を必要とする。 LLMの一般化能力を評価するための適切なレンズを提供する新しい理論フレームワークを提案する。特に, LLMの微調整ダイナミクスを明らかにするPAC-Bayesian Generalization Boundを導出する。次に,ニューラルタンジェントカーネル(NTK)をベースとしたRectified Scaling ModelであるLENSLLMを紹介し,正確な性能予測を実現する。
論文参考訳（メタデータ） (2025-05-01T15:07:32Z)
Guiding Reasoning in Small Language Models with LLM Assistance [23.3038074903744]
小さな言語モデルは、深く、多段階の論理的推論を必要とするタスクに適していると疑念を抱いた。本稿では,Small Reasons, Large Hintsというフレームワークについて紹介する。数学的推論データセットを用いた実験により, ターゲットとなる外部足場の性能が著しく向上することが示された。
論文参考訳（メタデータ） (2025-04-14T06:32:45Z)
SoftCoT: Soft Chain-of-Thought for Efficient Reasoning with LLMs [48.28847964704554]
CoT(Chain-of-Thought)推論により、LLM(Large Language Models)は複雑な推論タスクを解くことができる。本稿では,LLMの変更を必要としない連続空間推論のための新しい手法を提案する。
論文参考訳（メタデータ） (2025-02-17T18:52:29Z)
Rational Tuning of LLM Cascades via Probabilistic Modeling [0.9208007322096532]
大規模言語モデル(LLM)の連立性能分布の確率的モデルを提案する。ベイズ最適化を用いた信頼しきい値の選択と比較すると、マルコフパラメトリックコプラモデルの方がエラーコストのトレードオフに有利である。異なるLLMの誤差率間の相互作用に関する我々のフレームワークの帰納的仮定は、サンプル効率を高める。
論文参考訳（メタデータ） (2025-01-16T07:58:33Z)
LLMQuoter: Enhancing RAG Capabilities Through Efficient Quote Extraction From Large Contexts [2.685668802278156]
LLMQuoterは、レトリーバル拡張生成(RAG)を強化するために設計された軽量蒸留モデルである。 LLaMA-3Bアーキテクチャをベースとして、HotpotQAの15,000サンプルのサブセット上にLoRA(Lo-Rank Adaptation)を微調整し、LLMQuoterは"quote-first-then-answer"戦略を採用し、キュレートされたスニペットを推論モデルに渡す前に重要な引用を効率的に識別する。このワークフローは認知的オーバーヘッドを減らし、Retrieval-Augmented Fine-Tuning (RAFT)のようなフルコンテキストアプローチを上回り、小言語と大言語の両方で20ポイント以上の精度向上を達成する。
論文参考訳（メタデータ） (2025-01-09T20:01:15Z)
Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。 LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文参考訳（メタデータ） (2024-11-06T22:02:30Z)
P-FOLIO: Evaluating and Improving Logical Reasoning with Abundant Human-Written Reasoning Chains [97.25943550933829]
P-FOLIO(P-FOLIO)は、多種多様で複雑な推論連鎖からなる人称注釈付きデータセットである。我々はP-FOLIOを用いて大規模言語モデル推論機能の評価と改善を行う。
論文参考訳（メタデータ） (2024-10-11T19:22:57Z)
SELF-[IN]CORRECT: LLMs Struggle with Discriminating Self-Generated Responses [49.148206387394936]
モデルでは、初期応答を生成するよりも、以前に生成した代替品間での識別性が確実に向上しないことが示される。この発見は LLM が自身の判断によってのみ性能を向上させることができるという概念に挑戦する。
論文参考訳（メタデータ） (2024-04-04T20:27:37Z)
PaD: Program-aided Distillation Can Teach Small Models Reasoning Better than Chain-of-thought Fine-tuning [20.59775450213501]
本稿では, 蒸留データの誤りを抑えるための推論プログラムを導入したPaD(Program-Aided Distillation)を提案する。算術的推論,記号的推論,一般能力に基づいてPaDを評価する。
論文参考訳（メタデータ） (2023-05-23T10:11:56Z)
Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。 2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文参考訳（メタデータ） (2023-05-23T06:13:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。