論文の概要: Dual-Track CoT: Budget-Aware Stepwise Guidance for Small LMs
- arxiv url: http://arxiv.org/abs/2604.25039v1
- Date: Mon, 27 Apr 2026 22:43:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.620543
- Title: Dual-Track CoT: Budget-Aware Stepwise Guidance for Small LMs
- Title(参考訳): Dual-Track CoT:小さなLMのための予算対応型ステップワイドガイダンス
- Authors: Sagnik Chatterjee, Atharva Patil, Sricharan Ramesh,
- Abstract要約: 小言語モデルは、厳密な計算とトークンの予算の下で、多段階の推論に苦しむ。
自己整合性のような既存のテスト時間推論手法ではパフォーマンスが向上するが、トークンコストが高く、ステップレベルの細かい制御ができないことが多い。
SLM(Small Language Models)は、同じまたは少ないトークンを確実に使用することができるか?
- 参考スコア(独自算出の注目度): 0.3823356975862005
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) solve many reasoning tasks via chain-of-thought (CoT) prompting, but smaller models (about 7 to 8B parameters) still struggle with multi-step reasoning under tight compute and token budgets. Existing test time reasoning methods such as self consistency (sampling multiple rationales and voting), Tree-of-Thoughts (search over intermediate thoughts), and critique revise loops improve performance, but often at high token cost and without fine-grained step-level control. This project1 aims to address that gap: can Small Language Models (SLMs) reason reliably using the same or fewer tokens? This question is both scientific and practical. Scientifically, it probes whether process supervision and simple test-time controls (such as token budgets and rejection of redundant steps) can substitute for model scale or large sampling counts. Practically, many deployments (on-device, low-latency, or cost-constrained settings) cannot afford huge models or dozens of sampled rationales per query. A method that improves SLM reasoning at fixed cost would therefore be directly useful.
- Abstract(参考訳): 大きな言語モデル(LLM)は、チェーン・オブ・シンクレット(CoT)のプロンプトによって多くの推論タスクを解決するが、より小さなモデル(約7から8Bのパラメータ)は、厳密な計算とトークンの予算の下で、多段階の推論に苦慮している。
自己整合性(複数の合理性や投票をサンプリングする)、トリー・オブ・ソート(中間思想について調べる)、批判的修正ループといった既存のテスト時間推論手法は、パフォーマンスを向上させるが、しばしばトークンコストが高く、ステップレベルの細かい制御が不要である。
このプロジェクト1は、このギャップに対処することを目的としています。 SLM(Small Language Models)は、同じまたは少ないトークンを確実に使用できますか?
この問題は科学的にも実用的でもあります。
科学的には、プロセスの監督と単純なテストタイムコントロール(トークン予算や冗長なステップの拒否など)が、モデルスケールや大規模なサンプリングカウントに取って代わるかどうかを調査する。
実際、多くのデプロイメント(オンデバイス、低レイテンシ、コスト制約のある設定)では、クエリ毎に巨大なモデルや数十のサンプルの合理化ができない。
したがって、固定コストでのSLM推論を改善する方法は、直接的に有用である。
関連論文リスト
- MentorCollab: Selective Large-to-Small Inference-Time Guidance for Efficient Reasoning [85.05204262206296]
大きな推論モデル(LRM)は、長い思考の連鎖を生成することによって、強い性能を達成するが、その推論コストは高い。
小型言語モデル(SLM)はより効率的であるが、多段階推論タスクでは困難である。
本研究では, LRM が SLM を選択的かつ簡潔にガイドする推論時協調手法である MentorCollab を提案する。
論文 参考訳(メタデータ) (2026-02-05T04:58:16Z) - Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - DAST: Difficulty-Adaptive Slow-Thinking for Large Reasoning Models [30.184895117009457]
本稿では,問題の難易度に基づいて,モデルが自律的にChain-of-Thought(CoT)の長さを調整できる,DAST(Difficulty-Adaptive Slow Thinking)を提案する。
多様なデータセットとモデルスケールの実験により、DASTは複雑な問題に対する推論精度を維持しながら、過剰思考を効果的に軽減することを示した。
論文 参考訳(メタデータ) (2025-03-06T14:23:06Z) - O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning [98.3430004984531]
精度を維持しながら推論オーバーヘッドを最小限に抑えるため,Longth-Harmonizing Fine-Tuning (O1-Pruner)を提案する。
私たちのコードはもうすぐhttps://github.com/StarDewXXX/O1-Pruner.comで公開されます。
論文 参考訳(メタデータ) (2025-01-22T01:35:11Z) - Token-Budget-Aware LLM Reasoning [33.81357562939748]
CoT(Chain-of-Thought)推論はトークンの使用にかなりのオーバーヘッドをもたらす。
トークン予算を考慮したLCM推論フレームワークを提案する。
提案手法は,CoT推論におけるトークンコストをわずかな性能低下のみで効果的に低減する。
論文 参考訳(メタデータ) (2024-12-24T16:55:45Z) - Guiding Language Model Reasoning with Planning Tokens [122.43639723387516]
大規模言語モデル(LLM)は、最近、複雑な推論タスクを実行する能力に対して、かなりの関心を集めている。
より構造的なチェーン・オブ・シークレット・ステップの創出を促す階層的な生成手法を提案する。
提案手法では、トレーニング可能なパラメータ(0.001%)の無視可能な増加が必要であり、完全な微調整か、よりパラメータ効率の良いスキームで適用することができる。
論文 参考訳(メタデータ) (2023-10-09T13:29:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。