論文の概要: Can LLMs Perceive Time? An Empirical Investigation
- arxiv url: http://arxiv.org/abs/2604.00010v1
- Date: Mon, 09 Mar 2026 18:51:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:13.185148
- Title: Can LLMs Perceive Time? An Empirical Investigation
- Title(参考訳): LLMは時間を知覚できるか? : 実証的研究
- Authors: Aniketh Garikaparthi,
- Abstract要約: 大規模な言語モデルは、自分たちのタスクがどれくらいかかるかを見積もることはできない。
68のタスクと4つのモデルファミリーにまたがる4つの実験を通して、この制限について検討する。
モデルは、トレーニングから持続時間に関する命題的な知識を持っているが、自身の推論時間に経験的な根拠がない。
- 参考スコア(独自算出の注目度): 0.8460698440162889
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models cannot estimate how long their own tasks take. We investigate this limitation through four experiments across 68 tasks and four model families. Pre-task estimates overshoot actual duration by 4--7$\times$ ($p < 0.001$), with models predicting human-scale minutes for tasks completing in seconds. Relative ordering fares no better: on task pairs designed to expose heuristic reliance, models score at or below chance (GPT-5: 18\% on counter-intuitive pairs, $p = 0.033$), systematically failing when complexity labels mislead. Post-hoc recall is disconnected from reality -- estimates diverge from actuals by an order of magnitude in either direction. These failures persist in multi-step agentic settings, with errors of 5--10$\times$. The models possess propositional knowledge about duration from training but lack experiential grounding in their own inference time, with practical implications for agent scheduling, planning and time-critical scenarios.
- Abstract(参考訳): 大規模な言語モデルは、自分たちのタスクがどれくらいかかるかを見積もることはできない。
68のタスクと4つのモデルファミリーにまたがる4つの実験を通して、この制限について検討する。
プレタスクは、実際の期間を4--7$\times$$$(p < 0.001$)オーバーシュートし、タスクが数秒で完了するまでの人間のスケール分を予測する。
ヒューリスティックな依存を明らかにするように設計されたタスクペア(GPT-5: 18\%の対直感的なペア、$p = 0.033$)では、複雑性ラベルが誤解された場合に体系的に失敗する。
ホック後のリコールは現実から切り離され、どちらの方向でも桁違いに現実から逸脱する。
これらの障害は、複数ステップのエージェント設定で持続し、5--10$\times$のエラーがある。
モデルはトレーニングから持続時間に関する命題的な知識を持っているが、エージェントのスケジューリング、計画、時間クリティカルなシナリオに対する実践的な意味を持つ、経験的な根拠を自身の推論時間に欠いている。
関連論文リスト
- $\texttt{YC-Bench}$: Benchmarking AI Agents for Long-Term Planning and Consistent Execution [38.30265058791818]
このベンチマークは、エージェントがシミュレーションされたスタートアップを数百のターンにまたがる1年間の地平線上で実行することで、能力を評価する。
プロプライエタリとオープンソースの両方で、それぞれ3つのシードに対して12のモデルを評価します。
クレード・オプス4.6は1.27Mで平均的なファイナルファンドを達成し、GLM-5は1.21Mで11$times$低い推論コストを達成した。
論文 参考訳(メタデータ) (2026-04-01T17:52:19Z) - When Do Tools and Planning Help LLMs Think? A Cost- and Latency-Aware Benchmark [0.0]
大規模言語モデルは推論時間計画と推論を改善するための外部ツールにますます依存している。
グラフ構造化知識(Event-QA)に対するイベント中心質問応答と,Reddit ChangeMyView(CMV)における説得応答生成の2つの現実的な設定で,この挙動をベンチマークする。
LangChainとLangGraphを使って、タスク固有のツールを備えたプラン-実行-再計画エージェントとワンショットベースラインを比較します。
論文 参考訳(メタデータ) (2026-01-06T02:24:29Z) - TimeOmni-1: Incentivizing Complex Reasoning with Time Series in Large Language Models [105.47481207029047]
時系列を推論する3つの基本的な機能にまたがる4つのアトミックタスクを形式化した時系列推論スイート(TSR-Suite)を紹介する。
また,時系列推論を必要とする多種多様な実世界の問題に対処するために設計された最初の統一推論モデルであるTime Omni-1を紹介する。
論文 参考訳(メタデータ) (2025-09-29T13:54:34Z) - BEDTime: A Unified Benchmark for Automatically Describing Time Series [8.466823017204641]
我々は、成功したマルチモーダルモデルは時系列の言語記述を認識し、区別し、生成することができるべきだと論じる。
次に、各タスクのモデルを評価する最初のベンチマークデータセットであるBEDTimeを作成します。
BEDTimeを用いて、13の最先端モデルを評価し、専用時系列基礎モデルの性能が著しく低下していることを見出した。
論文 参考訳(メタデータ) (2025-09-05T16:18:20Z) - Inverse Scaling in Test-Time Compute [51.16323216811257]
LRM(Large Reasoning Models)の推論長の延長は性能を低下させる。
モデルが長い理由付けをする場合には、5つの異なる障害モードを特定します。
これらの結果は、テストタイムの計算スケーリングはモデル機能の改善に引き続き期待できるが、問題のある推論パターンを必然的に補強する可能性があることを示唆している。
論文 参考訳(メタデータ) (2025-07-19T00:06:13Z) - Establishing Task Scaling Laws via Compute-Efficient Model Ladders [136.76316239300363]
我々は,事前訓練された言語モデル(LM)のタスク性能を予測するために,タスクスケーリング法則とモデルはしごを開発する。
2つの予測ステップのパラメータ化関数に適合するデータポイントを収集し、2つの対象モデルの予測を行う。
ランク付けされた4つの多重選択タスクにおいて、絶対誤差の2ポイント以内で、両方のターゲットモデルの精度を予測することができる。
論文 参考訳(メタデータ) (2024-12-05T18:21:49Z) - The Surprising Effectiveness of Test-Time Training for Few-Shot Learning [59.309477460893916]
言語モデル(LM)は、トレーニングディストリビューション内のタスクにおいて印象的なパフォーマンスを示しているが、しばしば構造的に新しいタスクで苦労している。
LMの推論と少数ショット学習能力を改善するメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。
本研究は,新しいタスクにおける文脈内学習の限界を強調し,言語モデルの適応性を高めるためのテストタイムトレーニングの可能性を示した。
論文 参考訳(メタデータ) (2024-11-11T18:59:45Z) - Hierarchical Reinforcement Learning as a Model of Human Task
Interleaving [60.95424607008241]
我々は、強化学習によって駆動される監督制御の階層モデルを開発する。
このモデルは、タスクインターリービングの既知の経験的効果を再現する。
その結果、階層的RLがタスクインターリービングのもっともらしいモデルとして支持された。
論文 参考訳(メタデータ) (2020-01-04T17:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。