論文の概要: Select to Think: Unlocking SLM Potential with Local Sufficiency
- arxiv url: http://arxiv.org/abs/2604.26940v1
- Date: Wed, 29 Apr 2026 17:51:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.530853
- Title: Select to Think: Unlocking SLM Potential with Local Sufficiency
- Title(参考訳): Select to think: Unlocking SLM potential with Local Sufficiency
- Authors: Wenxuan Ye, Yangyang Zhang, Xueli An, Georg Carle, Yunpu Ma,
- Abstract要約: 小規模言語モデル(SLM)は、スケーラブルなデプロイメントのための計算効率を提供するが、より大きな言語モデル(LLM)によって示される推論能力に欠けることが多い。
本稿では,SELECT TO THINK(S2T)を提案する。SLMに選択ロジックを蒸留し,推論時間に依存しない自律的な再ランク付けを実現する。
- 参考スコア(独自算出の注目度): 12.573615247126204
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Small language models (SLMs) offer computational efficiency for scalable deployment, yet they often fall short of the reasoning power exhibited by their larger counterparts (LLMs). To mitigate this gap, current approaches invoke an LLM to generate tokens at points of reasoning divergence, but these external calls introduce substantial latency and costs. Alternatively, standard distillation is often hindered by the capacity limitation, as SLMs struggle to accurately mimic the LLM's complex generative distribution. We address this dilemma by identifying local sufficiency: at divergence points, the LLM's preferred token consistently resides within the SLM's top-K next-token predictions, even when failing to emerge as the SLM top-1 choice. We therefore propose SELECT TO THINK (S2T), which reframes the LLM's role from open-ended generation to selection among the SLM's proposals, simplifying the supervision signal to discrete candidate rankings. Leveraging this, we introduce S2T-LOCAL, which distills the selection logic into the SLM, empowering it to perform autonomous re-ranking without inference-time LLM dependency. Empirically, we demonstrate that a 1.5B SLM's top-8 candidates capture the 32B LLM's choice with 95% hit rate. Translating this potential into performance, S2T-LOCAL improves greedy decoding by 24.1% on average across benchmarks, effectively matching the efficacy of 8-path self-consistency while operating with single-trajectory efficiency.
- Abstract(参考訳): 小規模言語モデル(SLM)は、スケーラブルなデプロイメントのための計算効率を提供するが、より大きな言語モデル(LLM)によって示される推論能力に欠けることが多い。
このギャップを軽減するため、現在のアプローチではLLMを呼び出し、推論の分岐点でトークンを生成するが、これらの外部呼び出しにはかなりのレイテンシとコストが伴う。
あるいは、SLMがLSMの複雑な生成分布を正確に模倣するのに苦労しているため、標準的な蒸留は容量制限によってしばしば妨げられる。
発散点において、LSMの好ましいトークンは、SLMのトップ1選択として現れない場合でも、SLMの次のトップK予測内に一貫して存在する。
そこで我々は,SELECT TO THINK (S2T) を提案し,LLMの役割をオープン・エンド・ジェネレーションからSLMの候補選択に再編成し,個別の候補ランキングへの監視信号を簡素化する。
これを利用して、S2T-LOCALを導入し、選択ロジックをSLMに蒸留し、推論時間 LLM 依存なしに自律的な再ランク付けを行う。
実験により,1.5B の SLM 上位8候補が 32B の LLM 選択を95% のヒット率で捉えた。
この可能性を性能に翻訳することで、S2T-LOCALは、ベンチマーク全体で平均24.1%のグレディデコーディングを改善し、単一軌道効率で動作しながら、8パスの自己整合性の有効性を効果的にマッチングする。
関連論文リスト
- Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads [104.9566359759396]
データ駆動の不確実性スコアに基づくステップレベルの推論検証の軽量な代替案を提案する。
本研究は, LLMの内部状態が不確実性を符号化し, 信頼性の高い検証信号として機能することが示唆された。
論文 参考訳(メタデータ) (2025-11-09T03:38:29Z) - LLMs for Resource Allocation: A Participatory Budgeting Approach to Inferring Preferences [17.089038477886486]
大規模言語モデル(LLM)は、複雑な意思決定タスクを扱うことがますます期待されているが、構造化されたリソース割り当てを実行する能力はいまだ探索されていない。
i) LLMに基づく資源配分の実践的設定と, (ii) それらの推論能力を評価するための適応ベンチマークとして, PB(Participatory Budgeting)を活用する2目的フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-08T06:45:07Z) - Federated Learning-Enabled Hybrid Language Models for Communication-Efficient Token Transmission [87.68447072141402]
ハイブリッド言語モデル(HLM)は、エッジデバイス上でのSLM(Small Language Model)の低レイテンシ効率と、集中型サーバ上でのLLM(Large Language Model)の高精度を組み合わせたものである。
我々は、不確実性を考慮した推論とフェデレートラーニング(FL)を統合する通信効率の高いHLMフレームワークであるFedHLMを提案する。
論文 参考訳(メタデータ) (2025-06-30T02:56:11Z) - How Many Parameters Does Your Task Really Need? Task Specific Pruning with LLM-Sieve [2.33361323991006]
大きな言語モデル(LLM)は、リソース制約された設定において、狭いタスクのためにますますデプロイされる。
LLM-Sieveは,タスク性能の維持に必要な最小パラメータサブセットにLCMを適用可能なフレームワークである。
論文 参考訳(メタデータ) (2025-05-23T20:17:20Z) - LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - Uncertainty-Aware Hybrid Inference with On-Device Small and Remote Large Language Models [49.48313161005423]
ハイブリッド言語モデル(HLM)アーキテクチャは、モバイル端末で動作する小さな言語モデル(SLM)と、無線ネットワークの基地局(BS)にホストされる大きな言語モデル(LLM)を統合する。
HLMトークン生成プロセスは、投機的推論の原則に従っている: SLMの語彙分布はLSMにアップロードされ、LPMによって再サンプリングされる。
本研究では,不確実性を考慮したHLM (Uncertainty-aware opportunistic HLM) という新しいHLM構造を提案する。
論文 参考訳(メタデータ) (2024-12-17T09:08:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。