論文の概要: Chronos: Learning Temporal Dynamics of Reasoning Chains for Test-Time Scaling
- arxiv url: http://arxiv.org/abs/2602.01208v1
- Date: Sun, 01 Feb 2026 12:57:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.662793
- Title: Chronos: Learning Temporal Dynamics of Reasoning Chains for Test-Time Scaling
- Title(参考訳): Chronos: テストタイムスケーリングのための推論チェーンの時間ダイナミクスの学習
- Authors: Kai Zhang, Jiayi Liao, Chengpeng Li, Ziyuan Xie, Sihang Li, Xiang Wang,
- Abstract要約: textbfChronosは時系列を時系列としてモデル化する時系列推論スコアラである。
Chronosは、計算オーバーヘッドが無視できるため、さまざまなモデルに対して一貫して実質的なゲインを提供する。
- 参考スコア(独自算出の注目度): 13.419095400140913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Test-Time Scaling (TTS) has emerged as an effective paradigm for improving the reasoning performance of large language models (LLMs). However, existing methods -- most notably majority voting and heuristic token-level scoring -- treat reasoning traces or tokens equally, thereby being susceptible to substantial variations in trajectory quality and localized logical failures. In this work, we introduce \textbf{Chronos}, a lightweight and plug-and-play chronological reasoning scorer that models each trajectory as a time series. Specifically, Chronos learns to capture trajectory features of token probabilities, assigns quality scores accordingly, and employs a weighted voting mechanism. Extensive evaluations on both in-domain and out-of-domain benchmarks demonstrate that Chronos consistently delivers substantial gains across a variety of models, with negligible computational overhead. Notably, Chronos@128 achieves relative improvements of 34.21\% over Pass@1 and 22.70\% over Maj@128 on HMMT25 using Qwen3-4B-Thinking-2507, highlighting its effectiveness.
- Abstract(参考訳): テスト時間スケーリング(TTS)は、大規模言語モデル(LLM)の推論性能を改善するための効果的なパラダイムとして登場した。
しかし、既存の手法(特に多数決とヒューリスティックなトークンレベルのスコアリング)は、トレースやトークンの推論を等しく扱うため、軌道上の品質や局所的な論理的失敗のかなりのバリエーションに影響を受けやすい。
本稿では,各トラックを時系列としてモデル化した,軽量かつプラグアンドプレイの時系列推論スコアラである \textbf{Chronos} を紹介する。
具体的には、Chronos氏はトークン確率の軌跡の特徴を捉え、それに応じて品質スコアを割り当て、重み付けされた投票機構を採用することを学ぶ。
ドメイン内ベンチマークとドメイン外ベンチマークの両方に対する大規模な評価は、Chronosが無視できる計算オーバーヘッドを伴って、さまざまなモデルに対して一貫して実質的なゲインを提供することを示している。
特に、Chronos@128はPass@1よりも34.21\%、Mag@128より22.70\%、HMMT25ではQwen3-4B-Thinking-2507で相対的に改善され、その効果が強調されている。
関連論文リスト
- Hidden States as Early Signals: Step-level Trace Evaluation and Pruning for Efficient Test-Time Scaling [19.080366193748127]
大規模言語モデル(LLM)は、複数のトレースを生成することによって、テスト時間スケーリングを通じて推論能力を向上することができる。
長い推論トレースと多重サンプリングの組み合わせは、相当な計算とエンドツーエンドのレイテンシをもたらす。
隠れ状態を用いて推論ステップを評価する新しいプルーニングフレームワークであるStep-level Trace Evaluation and Pruningを提案する。
論文 参考訳(メタデータ) (2026-01-14T02:54:55Z) - Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations [83.93566096400723]
ランダムにサンプリングされたトークン化が与えられた場合、命令調整されたモデルは元の性能の最大93.4%を維持している。
文字レベルのセグメンテーションは文字列操作とコード理解タスクを最大+14%改善する。
右列桁のグルーピングは、大数の算術を+33%向上させる。
論文 参考訳(メタデータ) (2025-06-23T18:02:26Z) - Accelerated Test-Time Scaling with Model-Free Speculative Sampling [58.69141724095398]
STAND(Stochastic Adaptive N-gram Drafting)は,新しいモデルフリーな投機的デコード手法である。
従来の自己回帰復号法と比較して,STANDは推論遅延を60~65%削減することを示した。
モデルフリーのアプローチとして、STANDは追加のトレーニングなしで既存の言語モデルに適用できる。
論文 参考訳(メタデータ) (2025-06-05T07:31:18Z) - Sample, Don't Search: Rethinking Test-Time Alignment for Language Models [55.2480439325792]
新しいテストタイムアライメントアプローチであるQAlignを紹介します。
テスト時間計算をスケールする際、QAlignは各プロンプトの最適配向分布からのサンプリングに収束する。
マルコフ連鎖モンテカルロのテキスト生成における最近の進歩を取り入れることで、基礎となるモデルを変更したり、ロジットアクセスを必要とせずに、より良い整合出力を可能にする。
論文 参考訳(メタデータ) (2025-04-04T00:41:40Z) - Chronos: Learning the Language of Time Series [79.38691251254173]
Chronosは事前訓練された確率的時系列モデルのためのフレームワークである。
クロノスモデルでは,様々な領域の時系列データを利用して,未知の予測タスクにおけるゼロショット精度を向上させることができることを示す。
論文 参考訳(メタデータ) (2024-03-12T16:53:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。