論文の概要: LightReasoner: Can Small Language Models Teach Large Language Models Reasoning?
- arxiv url: http://arxiv.org/abs/2510.07962v1
- Date: Thu, 09 Oct 2025 08:55:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.969563
- Title: LightReasoner: Can Small Language Models Teach Large Language Models Reasoning?
- Title(参考訳): LightReasoner: 小さな言語モデルは大きな言語モデルに推論を教えることができるか?
- Authors: Jingyuan Wang, Yankai Chen, Zhonghang Li, Chao Huang,
- Abstract要約: 小型言語モデル(SLM)は、高価値推論モーメントを明らかにすることによって、より大きな言語モデル(LLM)を教える。
より強力な専門家モデル (LLM) と弱いアマチュアモデル (SLM) の振舞いの相違を利用した新しいフレームワークであるLightReasonerを提案する。
LightReasonerは精度を最大28.1%向上し、時間消費を90%削減し、問題を80%削減し、トークンの使用量を99%改善した。
- 参考スコア(独自算出の注目度): 18.69013369954785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated remarkable progress in reasoning, often through supervised fine-tuning (SFT). However, SFT is resource-intensive, relying on large curated datasets, rejection-sampled demonstrations, and uniform optimization across all tokens, even though only a fraction carry meaningful learning value. In this work, we explore a counterintuitive idea: can smaller language models (SLMs) teach larger language models (LLMs) by revealing high-value reasoning moments that reflect the latter's unique strength? We propose LightReasoner, a novel framework that leverages the behavioral divergence between a stronger expert model (LLM) and a weaker amateur model (SLM). LightReasoner operates in two stages: (1) a sampling stage that pinpoints critical reasoning moments and constructs supervision examples capturing the expert's advantage through expert-amateur contrast, and (2) a fine-tuning stage that aligns the expert model with these distilled examples, amplifying its reasoning strengths. Across seven mathematical benchmarks, LightReasoner improves accuracy by up to 28.1%, while reducing time consumption by 90%, sampled problems by 80%, and tuned token usage by 99%, all without relying on ground-truth labels. By turning weaker SLMs into effective teaching signals, LightReasoner offers a scalable and resource-efficient approach for advancing LLM reasoning. Code is available at: https://github.com/HKUDS/LightReasoner
- Abstract(参考訳): 大規模言語モデル(LLM)は、しばしば教師付き微調整(SFT)を通して、推論において顕著な進歩を見せている。
しかし、SFTはリソース集約型であり、大きなキュレートされたデータセット、拒否サンプルによるデモ、トークン全体の均一な最適化に依存している。
より小さな言語モデル(SLM)は、後者の独特な強さを反映した高価値推論モーメントを明らかにすることによって、より大きな言語モデル(LLM)を教えることができるのか?
本稿では,より強力な専門家モデル (LLM) と弱いアマチュアモデル (SLM) との振舞いの相違を利用した新しいフレームワークLightReasonerを提案する。
LightReasoner は,(1) 専門家とアマチュアのコントラストを通じて専門家の優位性を捉えた,重要な推論モーメントをピンポイントし,監督事例を構築するサンプリングステージ,(2) 専門家モデルをこれらの蒸留事例と整合させ,その推論強度を増幅する微調整ステージの2段階で動作する。
7つの数学ベンチマークで、LightReasonerは精度を最大28.1%向上させ、時間消費を90%削減し、問題を80%削減し、トークンの使用量を99%改善した。
弱いSLMを効果的な教示信号にすることで、LightReasonerはLLM推論を進めるためのスケーラブルでリソース効率の良いアプローチを提供する。
コードは、https://github.com/HKUDS/LightReasonerで入手できる。
関連論文リスト
- FairReason: Balancing Reasoning and Social Bias in MLLMs [54.26091556079722]
MLLM(Multimodal Large Language Models)は、様々なタスクやモダリティにおいて、最先端の成果をすでに達成している。
近年の研究では、推論能力をさらに推し進めるために、先進的なプロンプトスキームと後続の微調整を探求している。
論文 参考訳(メタデータ) (2025-07-30T19:57:22Z) - Multi-MLLM Knowledge Distillation for Out-of-Context News Detection [17.41734069411864]
マルチモーダル・アウト・オブ・コンテクスト・ニュース(Multimodal out-of-context news)は、画像が元の文脈以外で使用される誤報の一種である。
本稿では,この知識を学生MLLMに伝達するための2段階の知識蒸留フレームワークを提案する。
ステージ1では、すべてのトレーニングデータを用いて、LoRAの微調整を学生モデルに適用する。
ステージ2では、教師の予測が矛盾するデータポイント上で、LoRAファインタニングとDPOの両方を用いて、学生モデルをさらに微調整する。
論文 参考訳(メタデータ) (2025-05-28T16:03:41Z) - SplitReason: Learning To Offload Reasoning [7.016347390223799]
大規模言語モデル(LLM)における推論は、単純な言語モデリングタスクよりもかなり長いトークン生成シーケンスを生成する傾向がある。
私たちはこれを、推論プロセスの最も困難な部分だけを、より大きく、より有能なモデルにオフロードすることで活用します。
このアプローチは、AIME24の推論精度を24%、28.3%改善し、それぞれ生成されたトークンの1.35%と5%をオフロードする。
論文 参考訳(メタデータ) (2025-04-23T03:00:02Z) - Innate Reasoning is Not Enough: In-Context Learning Enhances Reasoning Large Language Models with Less Overthinking [39.48406368755411]
大言語モデル(LLM)がRLLM(Reasoning Large Language Models)を導入
RLLMは、訓練から得られる自然的連鎖起因性(CoT)推論能力を示し、自然な疑問に繋がる:「CoTは、RLLMの推論能力を高めるために必要か?」。
本稿では,Zero-shot CoT と Few-shot CoT が数理推論タスクにおける RLLM に与える影響を初めて包括的に解析する。
論文 参考訳(メタデータ) (2025-03-25T12:37:22Z) - OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。
OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - Towards Reasoning Ability of Small Language Models [7.12809444398765]
本稿では,SLMの推論能力を体系的に評価し,研究する最初のベンチマークであるThinkSLMを紹介する。
本研究は、17の推論ベンチマークで6つの主要なモデルファミリーから72種類のSLMを評価した。
我々の発見は、スケーリングが強力な推論を達成する唯一の方法である、という仮定に挑戦する。
論文 参考訳(メタデータ) (2025-02-17T08:59:16Z) - SuperCorrect: Advancing Small LLM Reasoning with Thought Template Distillation and Self-Correction [89.56181323849512]
SuperCorrectは、大きな教師モデルを使用して、より小さな学生モデルの推論と反映の両方を監督し、修正する新しい2段階のフレームワークである。
第1段階では、教師モデルから階層的な高レベルかつ詳細な思考テンプレートを抽出し、よりきめ細かい推論思考を導き出す学生モデルを指導する。
第2段階では、学生モデルの自己補正能力を高めるために、クロスモデル協調直接選好最適化(DPO)を導入する。
論文 参考訳(メタデータ) (2024-10-11T17:25:52Z) - Identifying Factual Inconsistencies in Summaries: Grounding LLM Inference via Task Taxonomy [48.29181662640212]
事実的矛盾は、生成モデルによる忠実な要約にとって重要なハードルとなる。
我々は,要約中の不整合事実のキーエラータイプを集約し,ゼロショットと教師付きパラダイムの両方を容易にするためにそれらを組み込んだ。
論文 参考訳(メタデータ) (2024-02-20T08:41:23Z) - Large Language Models are Zero-Shot Reasoners [28.6899375595088]
思考の連鎖(CoT)プロンプトは、ステップバイステップの回答例を通して複雑な多段階推論を引き出す手法である。
LLMは、各回答の前に単に「ステップバイステップ」を追加して、まともなゼロショット推論子であることを示す。
実験結果から,同一のプロンプトテンプレートを用いたZero-shot-CoTはゼロショットLLM性能を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2022-05-24T09:22:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。