論文の概要: Timely Machine: Awareness of Time Makes Test-Time Scaling Agentic
- arxiv url: http://arxiv.org/abs/2601.16486v1
- Date: Fri, 23 Jan 2026 06:28:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.56988
- Title: Timely Machine: Awareness of Time Makes Test-Time Scaling Agentic
- Title(参考訳): Timely Machine: Awareness of Timeはテスト時間スケーリングエージェントを作る
- Authors: Yichuan Ma, Linyang Li, Yongkang chen, Peiji Li, Xiaozhe Li, Qipeng Guo, Dahua Lin, Kai Chen,
- Abstract要約: ウォールタイムとしてテスト時間を再定義するTimely Machineを提案する。
我々は、高頻度ツールコール、低周波ツールコール、時間制約推論にまたがるベンチマークであるTimely-Evalを紹介する。
より小さなモデルでは、より多くのインタラクションを通じて高速なフィードバックが得られ、大きなモデルでは、より優れたインタラクション品質によって、高レイテンシ設定が支配される。
- 参考スコア(独自算出の注目度): 72.97800570813175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) increasingly tackle complex reasoning tasks, test-time scaling has become critical for enhancing capabilities. However, in agentic scenarios with frequent tool calls, the traditional generation-length-based definition breaks down: tool latency decouples inference time from generation length. We propose Timely Machine, redefining test-time as wall-clock time, where models dynamically adjust strategies based on time budgets. We introduce Timely-Eval, a benchmark spanning high-frequency tool calls, low-frequency tool calls, and time-constrained reasoning. By varying tool latency, we find smaller models excel with fast feedback through more interactions, while larger models dominate high-latency settings via superior interaction quality. Moreover, existing models fail to adapt reasoning to time budgets. We propose Timely-RL to address this gap. After cold-start supervised fine-tuning, we use reinforcement learning to enhance temporal planning. Timely-RL improves time budget awareness and consistently boosts performance across Timely-Eval. We hope our work offers a new perspective on test-time scaling for the agentic era.
- Abstract(参考訳): 大規模言語モデル(LLM)が複雑な推論タスクにますます取り組みつつある中、テストタイムのスケーリングは機能拡張に欠かせないものになっている。
しかし、頻繁なツール呼び出しを伴うエージェントシナリオでは、従来のジェネレーション長ベースの定義が壊れる: ツールレイテンシは、推論時間を生成時間から切り離す。
テストタイムをウォールクロック時間として再定義するTimely Machineを提案し、モデルが時間予算に基づいて戦略を動的に調整する。
我々は、高頻度ツールコール、低周波ツールコール、時間制約推論にまたがるベンチマークであるTimely-Evalを紹介する。
ツールのレイテンシを変えることで、より多くのインタラクションを通じて高速なフィードバックでより小さなモデルが優れているのに対して、大きなモデルはより優れたインタラクション品質によって高レイテンシ設定を支配しているのです。
さらに、既存のモデルは、時間予算に推論を適用することができません。
このギャップに対処するために、Timely-RLを提案する。
冷間開始制御による微調整後,時間的計画の強化に強化学習を用いる。
Timely-RLは時間予算の認識を改善し、Timely-Eval全体のパフォーマンスを継続的に向上します。
私たちはエージェント時代のテストタイムのスケーリングについて、新たな視点を提供することを期待しています。
関連論文リスト
- Learning to Reason Over Time: Timeline Self-Reflection for Improved Temporal Reasoning in Language Models [21.579319926212296]
大規模言語モデル(LLM)は、一貫性のあるテキストを生成し、コンテキストを理解し、推論タスクを実行するための強力なツールとして登場した。
彼らは時間的推論に苦しむが、それはイベントシーケンシングや時間的関係、時間的関係などの時間的関連情報を処理する必要がある。
我々は,タイムライン構築と反復的自己回帰を組み合わせた多段階プロセスを通じて,LLMの時間的推論能力を高める新しいフレームワークであるTISERを紹介する。
論文 参考訳(メタデータ) (2025-04-07T16:51:45Z) - A Comparative Study of Pruning Methods in Transformer-based Time Series Forecasting [0.07916635054977067]
プルーニングは、ニューラルネットワークのパラメータ数を削減し、計算を保存するための確立されたアプローチである。
本研究では,これらのプルーニング戦略がモデルサイズ,演算,推論時間などの予測性能および計算面に与える影響について検討する。
ハードウェアとソフトウェアが対応する場合でも、構造化プルーニングは大幅な時間節約を達成できないことを実証する。
論文 参考訳(メタデータ) (2024-12-17T13:07:31Z) - Temporal Feature Matters: A Framework for Diffusion Model Quantization [105.3033493564844]
拡散モデルはマルチラウンド・デノナイジングの時間ステップに依存している。
3つの戦略を含む新しい量子化フレームワークを導入する。
このフレームワークは時間情報のほとんどを保存し、高品質なエンドツーエンド生成を保証する。
論文 参考訳(メタデータ) (2024-07-28T17:46:15Z) - Gated Recurrent Neural Networks with Weighted Time-Delay Feedback [55.596897987498174]
本稿では,重み付き時間遅延フィードバック機構を備えたゲートリカレントユニット(GRU)を導入し,時系列データの長期依存性をモデル化する手法を提案する。
提案したモデルである $tau$-GRU は、繰り返し単位の連続時間定式化の離散版であり、力学は遅延微分方程式(DDE)によって制御される。
論文 参考訳(メタデータ) (2022-12-01T02:26:34Z) - Towards Spatio-Temporal Aware Traffic Time Series Forecasting--Full
Version [37.09531298150374]
同じ時系列パターンの複雑な時系列パターンが時間によって異なる可能性があるため、トラフィックシリーズの予測は困難である。
このような時間的モデルは、時間的位置と時間的期間に関わらず、共有パラメータ空間を使用し、時間的相関は場所間で類似しており、常に時間にわたって保持するわけではないと仮定する。
サブテンポラリモデルにICDを意識したモデルをエンコードするフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T16:44:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。