論文の概要: Towards Reasoning Ability of Small Language Models
- arxiv url: http://arxiv.org/abs/2502.11569v3
- Date: Tue, 30 Sep 2025 11:59:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 19:34:21.359238
- Title: Towards Reasoning Ability of Small Language Models
- Title(参考訳): 小言語モデルの推論能力に向けて
- Authors: Gaurav Srivastava, Shuxiang Cao, Xuan Wang,
- Abstract要約: 本稿では,SLMの推論能力を体系的に評価し,研究する最初のベンチマークであるThinkSLMを紹介する。
本研究は、17の推論ベンチマークで6つの主要なモデルファミリーから72種類のSLMを評価した。
我々の発見は、スケーリングが強力な推論を達成する唯一の方法である、という仮定に挑戦する。
- 参考スコア(独自算出の注目度): 7.12809444398765
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning has long been viewed as an emergent property of large language models (LLMs). However, recent studies challenge this assumption, showing that small language models (SLMs) can also achieve competitive reasoning performance. This paper introduces ThinkSLM, the first extensive benchmark to systematically evaluate and study the reasoning abilities of SLMs trained from scratch or derived from LLMs through quantization, pruning, and distillation. We first establish a reliable evaluation criterion comparing available methods and LLM judges against our human evaluations. Then we present a study evaluating 72 diverse SLMs from six major model families across 17 reasoning benchmarks. We repeat all our experiments three times to ensure a robust assessment. Our findings show that: 1) reasoning ability in SLMs is strongly influenced by training methods and data quality rather than solely model scale; 2) quantization preserves reasoning capability, while pruning significantly disrupts it; 3) larger models consistently exhibit higher robustness against adversarial perturbations and intermediate reasoning, but certain smaller models closely match or exceed the larger models' performance. Our findings challenge the assumption that scaling is the only way to achieve strong reasoning. Instead, we foresee a future where SLMs with strong reasoning capabilities can be developed through structured training or post-training compression. Our ThinkSLM Leaderboard is publicly available at: https://ctrl-gaurav.github.io/thinkslm.github.io/
- Abstract(参考訳): 推論は、長い間、大きな言語モデル(LLM)の創発的特性と見なされてきた。
しかし、近年の研究では、小言語モデル(SLM)が競争力のある推論性能も達成できることが示され、この仮定に異議を唱えている。
本稿では,スクラッチから学習したSLMの定量化,プルーニング,蒸留を通じてLLMから派生したSLMの推理能力を体系的に評価し,研究する最初の大規模ベンチマークであるThinkSLMを紹介する。
まず、人間の評価に対して、利用可能な方法とLCMの判断を比較し、信頼性の高い評価基準を確立する。
そこで本研究では、17の推論ベンチマークで6つの主要なモデルファミリーから72種類のSLMを評価した。
私たちは、堅牢な評価を保証するために、すべての実験を3回繰り返します。
我々の研究結果は以下のとおりである。
1)SLMにおける推論能力は,単にモデルスケールではなく,トレーニング方法やデータ品質の影響を強く受けている。
2 定量化は推論能力を保ちつつ、刈り取りはそれを著しく破壊する。
3) より大型のモデルでは, 対向的摂動や中間的推論に対して高い堅牢性を示すが, より小型のモデルでは, より大型のモデルの性能と密に一致するか, 上回っている。
我々の発見は、スケーリングが強力な推論を達成する唯一の方法である、という仮定に挑戦する。
代わりに、構造化トレーニングやポストトレーニング圧縮によって、強力な推論能力を持つSLMを開発できる未来を予見する。
https://ctrl-gaurav.github.io/thinkslm.github.io/
関連論文リスト
- LLM-Crowdsourced: A Benchmark-Free Paradigm for Mutual Evaluation of Large Language Models [13.713870642186254]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示す。
既存の評価手法は、データ汚染、ブラックボックス操作、主観的嗜好といった問題に悩まされている。
我々は,新しいベンチマークフリー評価パラダイム LLM-Crowdsourced を提案する。
論文 参考訳(メタデータ) (2025-07-30T03:50:46Z) - Can Reasoning Help Large Language Models Capture Human Annotator Disagreement? [84.32752330104775]
ヒトのアノテーションの変化(つまり不一致)は、NLPでは一般的である。
異なる推論条件が大言語モデルの不一致モデルに与える影響を評価する。
意外なことに、RLVRスタイルの推論は不一致モデリングにおいて性能を低下させる。
論文 参考訳(メタデータ) (2025-06-24T09:49:26Z) - Generative Evaluation of Complex Reasoning in Large Language Models [39.195491367590485]
大規模言語モデル(LLM)における推論評価に特化して設計された生成的評価フレームワークであるKUMOを紹介する。
自動パイプラインを通じて、KUMOは、超人記憶よりも真の一般化を示すために、オープンエンドドメインにまたがる新しいタスクを連続的に生成する。
我々は、KUMOが作成した100のドメインにまたがる5000のタスクに対して、23の最先端LCMを評価し、大学生に対する推論能力をベンチマークした。
論文 参考訳(メタデータ) (2025-04-03T17:54:18Z) - Weaker LLMs' Opinions Also Matter: Mixture of Opinions Enhances LLM's Mathematical Reasoning [3.0449420665138485]
大規模言語モデル(LLM)は、特に数学において、公式な推論能力への関心を高めている。
そこで本研究では,より弱いLLMからの意見の混合(MoO)を利用して,(相対的に)強いLLM推論を強化するポストトレーニング手法を提案する。
その結果,LLMの考え方を取り入れることで,数学的推論が平均5%向上し,推論作業における多様な視点の価値が浮き彫りになることがわかった。
論文 参考訳(メタデータ) (2025-02-26T23:22:02Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - What Makes In-context Learning Effective for Mathematical Reasoning: A Theoretical Analysis [81.15503859645149]
本稿では,大規模言語モデルの推論性能に及ぼす文脈内実演の影響を理論的に解析することを目的とする。
本稿では, LMS3 という, 単純で一般化可能な, 低複雑さな実演選択法を提案する。
論文 参考訳(メタデータ) (2024-12-11T11:38:11Z) - Are Large Language Models Good Statisticians? [10.42853117200315]
StatQAは統計解析タスク用に設計された新しいベンチマークである。
GPT-4oのような最先端モデルでさえ、64.83%の最高の性能を実現していることを示す。
オープンソースのLLMは限られた能力を示すが、細調整されたものは顕著に改善されている。
論文 参考訳(メタデータ) (2024-06-12T02:23:51Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は意思決定タスクを自動化するために使用される。
本稿では,LPMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを評価する。
さまざまな因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成します。
これらのベンチマークにより、LLMが事実を記憶したり、他のショートカットを見つけたりすることで、変化を正確に予測する能力を切り離すことができます。
論文 参考訳(メタデータ) (2024-04-08T14:15:56Z) - PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。
ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-28T12:33:14Z) - LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。
提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。
GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - Clever Hans or Neural Theory of Mind? Stress Testing Social Reasoning in
Large Language Models [82.50173296858377]
多くの逸話例は、ChatGPTやGPT-4のような新しい大規模言語モデル(LLM)が、N-ToM(Neural Theory-of-Mind)を示すことを示唆するために使用された。
我々は,LLMsのN-ToMの範囲を6つのタスクに対して広範囲に評価することにより検討し,LLMsが特定のN-ToM能力を示す一方で,この挙動は堅牢性には程遠いことを見出した。
論文 参考訳(メタデータ) (2023-05-24T06:14:31Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。