Fugu-MT 論文翻訳(概要): Thought calibration: Efficient and confident test-time scaling

論文の概要: Thought calibration: Efficient and confident test-time scaling

arxiv url: http://arxiv.org/abs/2505.18404v1
Date: Fri, 23 May 2025 22:17:18 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-27 16:58:42.396276
Title: Thought calibration: Efficient and confident test-time scaling
Title（参考訳）: 思考のキャリブレーション: 効率的で確実なテストタイムスケーリング
Authors: Menghua Wu, Cai Zhou, Stephen Bates, Tommi Jaakkola,
Abstract要約: 大きな言語モデルを推論することで、長いこと考えることで、素晴らしいテスト時間のスケーリングを実現しますが、このパフォーマンス向上は、かなりの計算コストを伴います。思考終了時の動的決定を動的に行うための思考校正を提案する。このフレームワークは,言語モデルに隠された表現をベースとした軽量なプローブによって実現されている。
参考スコア（独自算出の注目度）: 11.028893528095196
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reasoning large language models achieve impressive test-time scaling by thinking for longer, but this performance gain comes at significant compute cost. Directly limiting test-time budget hurts overall performance, but not all problems are equally difficult. We propose thought calibration to decide dynamically when thinking can be terminated. To calibrate our decision rule, we view a language model's growing body of thoughts as a nested sequence of reasoning trees, where the goal is to identify the point at which novel reasoning plateaus. We realize this framework through lightweight probes that operate on top of the language model's hidden representations, which are informative of both the reasoning structure and overall consistency of response. Based on three reasoning language models and four datasets, thought calibration preserves model performance with up to a 60% reduction in thinking tokens on in-distribution data, and up to 20% in out-of-distribution data.
Abstract（参考訳）: 大きな言語モデルを推論することで、長いこと考えることで、素晴らしいテスト時間のスケーリングを実現しますが、このパフォーマンス向上は、かなりの計算コストを伴います。テストタイム予算の直接的制限は、全体的なパフォーマンスを損なうが、すべての問題が同じように難しいわけではない。本稿では,思考の終了時に動的に判断する思考キャリブレーションを提案する。決定ルールを校正するために、言語モデルの成長する思考体系を、新たな推論台地を特定することを目的として、推論木のネスト列とみなす。我々は,このフレームワークを,言語モデルの隠れ表現上で動作させる軽量なプローブを通じて実現し,推論構造と応答の全体的な整合性の両方を知らせる。 3つの推論言語モデルと4つのデータセットに基づいて、思考キャリブレーションは、分布内データの思考トークンを最大60%削減し、分布外データの最大20%をモデル性能として保存する。

関連論文リスト

Inverse Scaling in Test-Time Compute [51.16323216811257]
LRM(Large Reasoning Models)の推論長の延長は性能を低下させる。モデルが長い理由付けをする場合には、5つの異なる障害モードを特定します。これらの結果は、テストタイムの計算スケーリングはモデル機能の改善に引き続き期待できるが、問題のある推論パターンを必然的に補強する可能性があることを示唆している。
論文参考訳（メタデータ） (2025-07-19T00:06:13Z)
Accelerated Test-Time Scaling with Model-Free Speculative Sampling [58.69141724095398]
STAND(Stochastic Adaptive N-gram Drafting)は,新しいモデルフリーな投機的デコード手法である。従来の自己回帰復号法と比較して,STANDは推論遅延を60～65%削減することを示した。モデルフリーのアプローチとして、STANDは追加のトレーニングなしで既存の言語モデルに適用できる。
論文参考訳（メタデータ） (2025-06-05T07:31:18Z)
CoThink: Token-Efficient Reasoning via Instruct Models Guiding Reasoning Models [56.40065909544213]
大規模言語モデル(LLM)は、テスト時間スケーリングとして知られる、テスト時間計算の増加の恩恵を受ける。しかし、推論最適化モデルはしばしば単純な問題さえ考え過ぎ、過度に冗長な出力を生成し、トークン効率を低下させる。 1)強化学習は前方推論の情報密度を減少させ,(2)後方連鎖学習は冗長でしばしば不要な検証ステップを促進する。
論文参考訳（メタデータ） (2025-05-28T06:24:45Z)
Landscape of Thoughts: Visualizing the Reasoning Process of Large Language Models [42.407188124841234]
思考のランドスケープ(英: Landscape of thoughts)は、複数の選択データセットにおいて、思考の連鎖の推論パスを検査するツールである。強いモデルと弱いモデル、正解と誤解、そして異なる推論タスクを区別する。また、低い一貫性や高い不確実性など、望ましくない推論パターンを明らかにする。
論文参考訳（メタデータ） (2025-03-28T06:09:51Z)
Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [60.04718679054704]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。 SoTはトークンを最大78%削減し、15の推論データセットで最小限の精度損失を発生させる。
論文参考訳（メタデータ） (2025-03-07T06:57:17Z)
LINGOLY-TOO: Disentangling Memorisation from Knowledge with Linguistic Templatisation and Orthographic Obfuscation [1.2576388595811496]
自然言語を基盤とした挑戦的推論ベンチマークであるlingOLY-TOOを紹介する。実言語で記述された推論問題をパーミュレートして、多数の質問のバリエーションを生成する。実験と分析は、モデルが推論を回避し、事前の知識から回答できることを示している。
論文参考訳（メタデータ） (2025-03-04T19:57:47Z)
Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach [70.44265766483633]
本稿では,潜在空間における暗黙的推論によるテスト時間計算のスケールアップが可能な,新しい言語モデルアーキテクチャについて検討する。我々のモデルは繰り返しブロックを繰り返すことで動作し、テスト時に任意の深さに展開する。結果のモデルが推論ベンチマークの性能を劇的に改善できることが示される。
論文参考訳（メタデータ） (2025-02-07T18:55:02Z)
Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文参考訳（メタデータ） (2024-11-25T17:11:54Z)
On the Self-Verification Limitations of Large Language Models on Reasoning and Planning Tasks [17.329365493094542]
ゲーム・オブ・24(Game of 24)とグラフカラー化(Graph Coloring)とSTRIPSプランニング(STRIPS Planning)の3分野において,GPT-4の性能に関する実証的研究を行った。我々は,自己批判による顕著なパフォーマンス崩壊と,音外検証による顕著なパフォーマンス向上を観察した。
論文参考訳（メタデータ） (2024-02-12T23:11:01Z)
Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文参考訳（メタデータ） (2022-07-14T17:00:19Z)
Thought Flow Nets: From Single Predictions to Trains of Model Thought [39.619001911390804]
人間が複雑な問題を解くと、すぐに決定が下されることはめったにない。その代わり、彼らは直感的な決定から始まり、間違いを見つけ、矛盾を解決し、異なる仮説の間を飛び交う。
論文参考訳（メタデータ） (2021-07-26T13:56:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。