Fugu-MT 論文翻訳(概要): When Does Reasoning Matter? A Controlled Study of Reasoning's Contribution to Model Performance

論文の概要: When Does Reasoning Matter? A Controlled Study of Reasoning's Contribution to Model Performance

arxiv url: http://arxiv.org/abs/2509.22193v1
Date: Fri, 26 Sep 2025 10:53:52 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-29 20:57:54.377045
Title: When Does Reasoning Matter? A Controlled Study of Reasoning's Contribution to Model Performance
Title（参考訳）: 推論はいつ重要か? : 推論のモデル性能への寄与に関する制御された研究
Authors: Nicolas Boizard, Hippolyte Gisserot-Boukhlef, Kevin El-Haddad, Céline Hudelot, Pierre Colombo,
Abstract要約: Instruction Fine-Tuning (IFT) と様々なサイズの推論モデルを比較する。我々の分析によると、推論はモデル性能を継続的に改善し、多くの場合、より大規模なIFTシステムに適合または超越している。
参考スコア（独自算出の注目度）: 12.583725308641633
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) with reasoning capabilities have achieved state-of-the-art performance on a wide range of tasks. Despite its empirical success, the tasks and model scales at which reasoning becomes effective, as well as its training and inference costs, remain underexplored. In this work, we rely on a synthetic data distillation framework to conduct a large-scale supervised study. We compare Instruction Fine-Tuning (IFT) and reasoning models of varying sizes, on a wide range of math-centric and general-purpose tasks, evaluating both multiple-choice and open-ended formats. Our analysis reveals that reasoning consistently improves model performance, often matching or surpassing significantly larger IFT systems. Notably, while IFT remains Pareto-optimal in training and inference costs, reasoning models become increasingly valuable as model size scales, overcoming IFT performance limits on reasoning-intensive and open-ended tasks.
Abstract（参考訳）: 推論能力を持つ大規模言語モデル(LLM)は、幅広いタスクにおいて最先端のパフォーマンスを達成した。実証的な成功にもかかわらず、推論が効果的になるタスクとモデルは、そのトレーニングと推論コストとともに、まだ未調査のままである。本研究では, 大規模教師付き研究を行うために, 合成データ蒸留の枠組みを頼りにしている。 Instruction Fine-Tuning (IFT) と様々なサイズの推論モデルを比較する。我々の分析によると、推論はモデル性能を継続的に改善し、多くの場合、より大規模なIFTシステムに適合または超越している。特に、IFTはトレーニングと推論コストにおいてパレート最適であり続けているが、推論モデルはモデルのサイズが大きくなるにつれて、推論集約的かつオープンなタスクにおいてIFTのパフォーマンス限界を克服し、ますます価値が高まっている。

関連論文リスト

NaturalThoughts: Selecting and Distilling Reasoning Traces for General Reasoning Tasks [65.70224757972068]
本研究では,NaturalReasoningからの質問のプールに基づいて,強力な教師モデルから推論トレースを選択する。データサイズをランダムサンプリングでスケールアップすることは、安定したパフォーマンス向上を伴う強力なベースラインであることに気付きました。より多様な推論戦略を必要とする難しい事例を選択することは、教師モデルの推論スキルを伝達するよりサンプル効率が高いことが判明した。
論文参考訳（メタデータ） (2025-07-02T17:30:24Z)
Quantization Hurts Reasoning? An Empirical Study on Quantized Reasoning Models [48.98109982725689]
量子化推論モデルに関する最初の体系的研究を行う。本研究は,様々なビット幅の最先端アルゴリズムを用いて,重み,KVキャッシュ,アクティベーション量子化について検討する。モデルのサイズ、モデルの起源、タスクの難しさを、パフォーマンスの重要な決定要因とみなす。
論文参考訳（メタデータ） (2025-04-07T08:22:45Z)
Inference-Time Scaling for Complex Tasks: Where We Stand and What Lies Ahead [33.011660907969706]
推論時間スケーリングは、大きな言語モデルの推論能力を高めることができる。本研究では,9つの最先端モデルと8つの課題にまたがるスケーリング手法の利点と限界について検討する。
論文参考訳（メタデータ） (2025-03-31T23:40:28Z)
Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [49.61246073215651]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。 OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。しかし、冗長な出力と冗長な出力による計算オーバーヘッドも大幅に発生する。
論文参考訳（メタデータ） (2025-03-20T17:59:38Z)
Training Language Models to Reason Efficiently [14.390800014819439]
我々は、強化学習を用いて、大きな推論モデルを訓練し、効率的に推論する。精度を維持しながら不要な計算オーバーヘッドを最小限に抑えるため,本手法はモデルにインセンティブを与える。 2つのオープンウェイトな大推論モデルに対する実験は、ほとんどの精度を保ちながら、推論コストを著しく削減することを示した。
論文参考訳（メタデータ） (2025-02-06T19:18:16Z)
Optimizing Sequential Recommendation Models with Scaling Laws and Approximate Entropy [104.48511402784763]
SRモデルの性能法則は,モデルの性能とデータ品質の関係を理論的に調査し,モデル化することを目的としている。データ品質を評価するために、従来のデータ量メトリクスと比較して、より曖昧なアプローチを示すために、近似エントロピー(ApEn)を提案する。
論文参考訳（メタデータ） (2024-11-30T10:56:30Z)
Scaling Laws Across Model Architectures: A Comparative Analysis of Dense and MoE Models in Large Language Models [34.79589443380606]
大規模言語モデル(LLM)のスケーリングは、モデルトレーニングとデプロイメントの効率性と効率性にとって重要な研究領域である。本研究は,Dense Models と MoE Model のスケーリング法則の伝達性と相違について検討する。
論文参考訳（メタデータ） (2024-10-08T03:21:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。