論文の概要: Inference-Time Chain-of-Thought Pruning with Latent Informativeness Signals
- arxiv url: http://arxiv.org/abs/2511.00699v2
- Date: Tue, 04 Nov 2025 03:17:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.899659
- Title: Inference-Time Chain-of-Thought Pruning with Latent Informativeness Signals
- Title(参考訳): 遅延インフォマティクス信号を用いた推算時間チェーン・オブ・サートプルーニング
- Authors: Sophie Li, Nicholas Huang, Nayan Saxena, Nina Luo, Vincent Lin, Kevin Zhu, Sunishchal Dev,
- Abstract要約: セルフトランケーションBest-of-N (ST-BoN) は、未進行の経路を早期に切り離すことによってこれを緩和する。
本稿では,KL-Adjusted Pruned Path Algorithm (KAPPA)を提案する。
- 参考スコア(独自算出の注目度): 6.5422130090856925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) improve reasoning accuracy when generating multiple candidate solutions at test time, but standard methods like Best-of-N (BoN) incur high computational cost by fully generating all branches. Self-Truncation Best-of-N (ST-BoN) mitigates this by truncating unpromising paths early, but its reliance on consistency-based heuristics is a limitation as it does not directly evaluate branch quality. We present KL-Adjusted Pruned Path Algorithm (KAPPA), an inference-time method that combines Kullback-Leibler divergence, confidence, and entropy into a principled scoring function to guide progressive pruning. By promoting diversity during exploration and selectively eliminating low-scoring branches, KAPPA maintains accuracy while substantially reducing memory and token usage. Experiments on GSM8K and MATH500 with DeepSeek-R1-Distill-Qwen-1.5B and Qwen2.5-7B-Instruct demonstrate that KAPPA stabilizes performance in smaller models and achieves up to ~60% reduction in peak memory and ~90% reduction in total token generation relative to BoN, with minimal impact on accuracy.
- Abstract(参考訳): 大規模言語モデル (LLM) はテスト時に複数の候補解を生成する際の推論精度を改善するが、Best-of-N (BoN) のような標準的な手法は全ての分岐を完全生成することで高い計算コストを発生させる。
セルフ・トランケーション・ベスト・オブ・N (ST-BoN) は、未証明パスを早期に切り離すことによってこれを緩和するが、一貫性に基づくヒューリスティックスへの依存は、分岐品質を直接評価しないため制限である。
本稿では,KL-Adjusted Pruned Path Algorithm (KAPPA)を提案する。
探索中の多様性の促進と低スコアブランチの選択的削除により、KAPPAは、メモリとトークンの使用を大幅に削減しつつ、精度を維持している。
DeepSeek-R1-Distill-Qwen-1.5BとQwen2.5-7B-InstructによるGSM8KとMATH500の実験では、KAPPAは小さなモデルの性能を安定させ、最大60%のピークメモリの削減とBoNに対するトークン生成全体の90%の削減を実現し、精度に最小限の影響を与えている。
関連論文リスト
- Intra-request branch orchestration for efficient LLM reasoning [52.68946975865865]
大規模言語モデル(LLM)は、複雑なタスクの正確性を改善するために、推論時推論アルゴリズムにますます依存している。
それまでの作業は、トークンの使用を減らすことを中心に、多くの場合、正確さを犠牲にしつつ、他のレイテンシ要因を見越すことに重点を置いていた。
本稿では,LLMサービスシステムであるDUCHESSについて,予測によって導かれるリクエスト内ブランチオーケストレーションにより,精度を犠牲にすることなく,コストとレイテンシを低減できるシステムを提案する。
論文 参考訳(メタデータ) (2025-09-29T15:52:08Z) - NIRVANA: Structured pruning reimagined for large language models compression [50.651730342011014]
直近のゼロショット保存精度と頑健な微調整のバランスをとるために, NIRVANAを導入した。
構造化プルーニングによって引き起こされる固有の課題にさらに対処するため、NIRVANAは層やモジュール間の適応的な空間割当機構を取り入れている。
Llama3, Qwen, T5モデルで行った実験では、NIRVANAは等価な空間制約の下で既存の構造化プルーニング法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-17T17:59:00Z) - Accelerated Test-Time Scaling with Model-Free Speculative Sampling [58.69141724095398]
STAND(Stochastic Adaptive N-gram Drafting)は,新しいモデルフリーな投機的デコード手法である。
従来の自己回帰復号法と比較して,STANDは推論遅延を60~65%削減することを示した。
モデルフリーのアプローチとして、STANDは追加のトレーニングなしで既存の言語モデルに適用できる。
論文 参考訳(メタデータ) (2025-06-05T07:31:18Z) - Guided by Gut: Efficient Test-Time Scaling with Reinforced Intrinsic Confidence [38.30075427255948]
大規模言語モデル(LLM)推論を強化するためのTTS(Test-Time Scaling)手法は、しばしばかなりの計算コストを発生させる。
本稿では,外部検証モデルに代えてPRMレベルの性能を実現する,効率的な自己誘導型TTSフレームワークである Guided by Gut (GG) を紹介する。
論文 参考訳(メタデータ) (2025-05-23T18:19:09Z) - Stable Reinforcement Learning for Efficient Reasoning [2.838966689544288]
GRPO-$lambda$ は GRPO の効率的で安定な変種である。
正当率を監視して報酬戦略を動的に調整する。
平均精度は1.48%向上し、CoT配列の長さは47.3%削減された。
論文 参考訳(メタデータ) (2025-05-23T16:43:03Z) - Fast Quiet-STaR: Thinking Without Thought Tokens [51.79231070632772]
Fast Quiet STaRは、より効率的な推論フレームワークであり、計算コストを削減しながらトークンレベルの推論の利点を保存する。
本手法では,段階的に思考トークン数を減少させるカリキュラムベースの学習戦略を導入する。
Mistral 7BとQwen2.5 7Bによる4つのベンチマークデータセットの実験では、Fast Quiet-STaRが平均精度でQuiet-STaRを一貫して上回っていることが示されている。
論文 参考訳(メタデータ) (2025-05-23T11:14:12Z) - Dynamic Early Exit in Reasoning Models [21.30793518631921]
長いチェーン・オブ・シンクレット(CoT)生成における再考は、問題解決の効率を低下させるだけでなく、精度損失のリスクも引き起こす。
我々は,LLMが生成時に早期終了によってCoT配列を自己トランケートできる簡易かつ効果的な方法を提案する。
提案手法は追加のトレーニングを必要とせず,既存の o1 ライクな推論 LLM にシームレスに統合することができる。
論文 参考訳(メタデータ) (2025-04-22T13:36:53Z) - GDP: Stabilized Neural Network Pruning via Gates with Differentiable
Polarization [84.57695474130273]
ゲートベースまたは重要度に基づくプルーニング手法は、重要度が最小のチャネルを削除することを目的としている。
GDPは、各チャネルのオン・アンド・オフを制御するために、ベルやホイッスルのない畳み込み層の前に接続することができる。
CIFAR-10とImageNetデータセットを用いて行った実験は、提案したGDPが最先端のパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2021-09-06T03:17:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。