論文の概要: Big Reasoning with Small Models: Instruction Retrieval at Inference Time
- arxiv url: http://arxiv.org/abs/2510.13935v1
- Date: Wed, 15 Oct 2025 15:51:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.552007
- Title: Big Reasoning with Small Models: Instruction Retrieval at Inference Time
- Title(参考訳): 小さなモデルによる大きな推論:推論時の命令検索
- Authors: Kenan Alkiek, David Jurgens, Vinod Vydiswaran,
- Abstract要約: 小型言語モデル(SLM)は、ローカルハードウェア上で効率的に動作し、強力なプライバシ、低コスト、環境への影響の低減を提供するため、ますます魅力的になっている。
我々は、SLMがスクラッチから生成するのではなく、構造化推論手順を検索する推論時間における命令介入によるこの制限に対処する。
MedQA(メディカルボード試験)、MMLU専門家法、MathQAの3Bから14Bパラメータのモデルを用いて、追加の微調整を行わずに、この枠組みを評価する。
- 参考スコア(独自算出の注目度): 23.462068660689322
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Can we bring large-scale reasoning to local-scale compute? Small language models (SLMs) are increasingly attractive because they run efficiently on local hardware, offering strong privacy, low cost, and reduced environmental impact. Yet they often struggle with tasks that require multi-step reasoning or domain-specific knowledge. We address this limitation through instruction intervention at inference time, where an SLM retrieves structured reasoning procedures rather than generating them from scratch. Our method builds an Instruction Corpus by grouping similar training questions and creating instructions via GPT-5. During inference, the SLM retrieves the most relevant instructions and follows their steps. Unlike retrieval-augmented generation, which retrieves text passages, instruction retrieval gives the model structured guidance for reasoning. We evaluate this framework on MedQA (medical board exams), MMLU Professional Law, and MathQA using models from 3B to 14B parameters without any additional fine-tuning. Instruction retrieval yields consistent gains: 9.4% on MedQA, 7.9% on MMLU Law, and 5.1% on MathQA. Concise instructions outperform longer ones, and the magnitude of improvement depends strongly on model family and intrinsic reasoning ability.
- Abstract(参考訳): 局所計算に大規模推論を適用できますか?
小型言語モデル(SLM)は、ローカルハードウェア上で効率的に動作し、強力なプライバシ、低コスト、環境への影響の低減を提供するため、ますます魅力的になっている。
しかし、彼らは多段階の推論やドメイン固有の知識を必要とするタスクに苦労することが多い。
我々は、SLMがスクラッチから生成するのではなく、構造化推論手順を検索する推論時間における命令介入によるこの制限に対処する。
提案手法は,同様の学習質問をグループ化して GPT-5 による指示を生成することで,インストラクションコーパスを構築する。
推論中、SLMは最も関連性の高い命令を検索し、ステップに従う。
テキストパスを検索する検索拡張生成とは異なり、命令検索は推論のためのモデル構造化ガイダンスを与える。
我々は,MedQA(医療委員会試験),MMLU専門家法,MathQAの3Bから14Bパラメータのモデルを用いて,追加の微調整を行わずに,この枠組みを評価する。
MedQAは9.4%、MMLU法は7.9%、MathQAは5.1%である。
簡潔な指示はより長い命令よりも優れており、改善の規模はモデルファミリーと本質的な推論能力に強く依存する。
関連論文リスト
- Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。
TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。
我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文 参考訳(メタデータ) (2025-07-10T07:34:05Z) - Incentivizing Reasoning for Advanced Instruction-Following of Large Language Models [31.962209251193272]
CoT(Chain-of- Thought)は、大規模言語モデル(LLM)の能力を普遍的に改善することが期待される。
テスト時間計算のスケーリングに対する推論をインセンティブ化することで,複雑な命令を扱う上でのLLMを向上する体系的手法であるRAIFを提案する。
より優れたCoT施行のためのサンプルワイドコントラストによる複雑な指示の下での推論の浅く、重要でない性質に対処する。
論文 参考訳(メタデータ) (2025-06-02T08:11:44Z) - Interleaved Reasoning for Large Language Models via Reinforcement Learning [22.403928213802036]
ロングチェーン・オブ・シント(CoT)は、大規模言語モデル(LLM)推論能力を向上する。
本稿では、強化学習(RL)を用いてLLMを指導し、マルチホップ質問に対する思考と回答をインターリーブする新しい学習パラダイムを提案する。
論文 参考訳(メタデータ) (2025-05-26T07:58:17Z) - Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models [27.142703756752997]
数学的推論タスクにおける命令追従評価のためのベンチマークであるMathIFを紹介する。
我々の実証分析では、推論能力のスケールアップと制御可能性の維持の間に一貫した緊張関係が明らかになっている。
簡単な介入であっても、性能を推論するコストはかかるものの、部分的に服従を回復できることが示される。
論文 参考訳(メタデータ) (2025-05-20T18:18:01Z) - GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。
GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。