論文の概要: Thought calibration: Efficient and confident test-time scaling
- arxiv url: http://arxiv.org/abs/2505.18404v1
- Date: Fri, 23 May 2025 22:17:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.396276
- Title: Thought calibration: Efficient and confident test-time scaling
- Title(参考訳): 思考のキャリブレーション: 効率的で確実なテストタイムスケーリング
- Authors: Menghua Wu, Cai Zhou, Stephen Bates, Tommi Jaakkola,
- Abstract要約: 大きな言語モデルを推論することで、長いこと考えることで、素晴らしいテスト時間のスケーリングを実現しますが、このパフォーマンス向上は、かなりの計算コストを伴います。
思考終了時の動的決定を動的に行うための思考校正を提案する。
このフレームワークは,言語モデルに隠された表現をベースとした軽量なプローブによって実現されている。
- 参考スコア(独自算出の注目度): 11.028893528095196
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning large language models achieve impressive test-time scaling by thinking for longer, but this performance gain comes at significant compute cost. Directly limiting test-time budget hurts overall performance, but not all problems are equally difficult. We propose thought calibration to decide dynamically when thinking can be terminated. To calibrate our decision rule, we view a language model's growing body of thoughts as a nested sequence of reasoning trees, where the goal is to identify the point at which novel reasoning plateaus. We realize this framework through lightweight probes that operate on top of the language model's hidden representations, which are informative of both the reasoning structure and overall consistency of response. Based on three reasoning language models and four datasets, thought calibration preserves model performance with up to a 60% reduction in thinking tokens on in-distribution data, and up to 20% in out-of-distribution data.
- Abstract(参考訳): 大きな言語モデルを推論することで、長いこと考えることで、素晴らしいテスト時間のスケーリングを実現しますが、このパフォーマンス向上は、かなりの計算コストを伴います。
テストタイム予算の直接的制限は、全体的なパフォーマンスを損なうが、すべての問題が同じように難しいわけではない。
本稿では,思考の終了時に動的に判断する思考キャリブレーションを提案する。
決定ルールを校正するために、言語モデルの成長する思考体系を、新たな推論台地を特定することを目的として、推論木のネスト列とみなす。
我々は,このフレームワークを,言語モデルの隠れ表現上で動作させる軽量なプローブを通じて実現し,推論構造と応答の全体的な整合性の両方を知らせる。
3つの推論言語モデルと4つのデータセットに基づいて、思考キャリブレーションは、分布内データの思考トークンを最大60%削減し、分布外データの最大20%をモデル性能として保存する。
関連論文リスト
- Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [60.04718679054704]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。
我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。
SoTはトークンを最大78%削減し、15の推論データセットで最小限の精度損失を発生させる。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z) - LINGOLY-TOO: Disentangling Memorisation from Knowledge with Linguistic Templatisation and Orthographic Obfuscation [1.2576388595811496]
自然言語を基盤とした挑戦的推論ベンチマークであるlingOLY-TOOを紹介する。
実言語で記述された推論問題をパーミュレートして、多数の質問のバリエーションを生成する。
実験と分析は、モデルが推論を回避し、事前の知識から回答できることを示している。
論文 参考訳(メタデータ) (2025-03-04T19:57:47Z) - Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach [70.44265766483633]
本稿では,潜在空間における暗黙的推論によるテスト時間計算のスケールアップが可能な,新しい言語モデルアーキテクチャについて検討する。
我々のモデルは繰り返しブロックを繰り返すことで動作し、テスト時に任意の深さに展開する。
結果のモデルが推論ベンチマークの性能を劇的に改善できることが示される。
論文 参考訳(メタデータ) (2025-02-07T18:55:02Z) - Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Thought Flow Nets: From Single Predictions to Trains of Model Thought [39.619001911390804]
人間が複雑な問題を解くと、すぐに決定が下されることはめったにない。
その代わり、彼らは直感的な決定から始まり、間違いを見つけ、矛盾を解決し、異なる仮説の間を飛び交う。
論文 参考訳(メタデータ) (2021-07-26T13:56:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。