論文の概要: Empirical Characterization of Temporal Constraint Processing in LLMs
- arxiv url: http://arxiv.org/abs/2511.10654v1
- Date: Sun, 02 Nov 2025 20:03:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-23 18:31:12.225133
- Title: Empirical Characterization of Temporal Constraint Processing in LLMs
- Title(参考訳): LLMにおける時間制約処理の実証評価
- Authors: Javier Marín,
- Abstract要約: 期限検出タスクを用いて8つの生産規模モデル(2.8-8Bパラメータ)の時間制約処理を特徴付ける。
合成例200点の微調整により,部分的性能を持つモデルが12~37ポイント向上することを示す。
この能力には,(1)連続時間状態表現,(2)言語パターンマッチングから分離した明示的な制約チェック,(3)時間的関係に対する体系的な構成的推論といったアーキテクチャ機構が必要である。
- 参考スコア(独自算出の注目度): 0.2538209532048866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When deploying LLMs in agentic architectures requiring real-time decisions under temporal constraints, we assume they reliably determine whether action windows remain open or have closed. This assumption is untested. We characterize temporal constraint processing across eight production-scale models (2.8-8B parameters) using deadline detection tasks, revealing systematic deployment risks: bimodal performance distribution (models achieve either 95% or 50% accuracy), extreme prompt brittleness (30-60 percentage point swings from formatting changes alone), and systematic action bias (100% false positive rates in failing models). Parameter count shows no correlation with capability in this range-a 3.8B model matches 7B models while other 7B models fail completely. Fine-tuning on 200 synthetic examples improves models with partial capability by 12-37 percentage points. We demonstrate that temporal constraint satisfaction cannot be reliably learned through next-token prediction on natural language, even with targeted fine-tuning. This capability requires architectural mechanisms for: (1) continuous temporal state representation, (2) explicit constraint checking separate from linguistic pattern matching, (3) systematic compositional reasoning over temporal relations. Current autoregressive architectures lack these mechanisms. Deploying such systems in time-critical applications without hybrid architectures incorporating symbolic reasoning modules represents unacceptable risk.
- Abstract(参考訳): 時間的制約の下でリアルタイム決定を必要とするエージェントアーキテクチャにLLMをデプロイする場合、アクションウィンドウがオープンなのかクローズなのかを確実に判断できると仮定する。
この仮定は証明されていない。
期限検出タスクを用いて8つの生産規模モデル(2.8-8Bパラメータ)にまたがる時間的制約処理を特徴とし、双モーダルな性能分布(モデルが95%または50%の精度を達成する)、極端に急激な脆さ(30~60ポイントは変更の形式化から切り離す)、系統的な行動バイアス(フェールモデルにおける100%偽陽性率)など、系統的なデプロイメントリスクを明らかにする。
3.8Bモデルは7Bモデルと一致し、他の7Bモデルは完全に失敗する。
200の合成例の微調整は、部分的能力を持つモデルを12-37ポイント改善する。
目的の微調整であっても,自然言語の次点予測によって時間的制約満足度を確実に学習することはできないことを示す。
この能力は,(1)連続時間状態表現,(2)言語パターンマッチングから分離した明示的な制約チェック,(3)時間的関係に対する体系的な構成的推論などのアーキテクチャメカニズムを必要とする。
現在の自己回帰型アーキテクチャはこれらのメカニズムを欠いている。
シンボリック推論モジュールを組み込んだハイブリッドアーキテクチャを使わずに、そのようなシステムをタイムクリティカルなアプリケーションにデプロイすることは、受け入れがたいリスクである。
関連論文リスト
- Beyond Mimicry: Preference Coherence in LLMs [0.19116784879310025]
大規模言語モデルが真の嗜好構造を示すかどうかを,AI固有のトレードオフに対する応答をテストすることによって検討する。
23の組合せ(47.9%)は、シナリオ強度と選択パターンの統計的に有意な関係を示した。
5つの組み合わせ(10.4%)だけが適応的またはしきい値に基づく行動を通じて有意義な嗜好コヒーレンスを示す。
不安定な遷移(45.8%)と刺激特異的感性は、現在のAIシステムが統一された嗜好構造を欠いていることを示唆している。
論文 参考訳(メタデータ) (2025-11-17T17:41:48Z) - Agentic World Modeling for 6G: Near-Real-Time Generative State-Space Reasoning [70.56067503630486]
第6世代(6G)インテリジェンスは、流動的なトークン予測ではなく、想像と選択の能力を校正している、と我々は主張する。
We showed that WM-MS3M cuts mean absolute error (MAE) by 1.69% vs MS3M with 32% less parameters and similar latency, and achieve a 35-80% lower root mean squared error (RMSE) than attention/hybrid baselines with 2.3-4.1x faster inference。
論文 参考訳(メタデータ) (2025-11-04T17:22:22Z) - Subject-Event Ontology Without Global Time: Foundations and Execution Semantics [51.56484100374058]
形式化は9つの公理(A1-A9)を含み、実行可能性の正しさを保証する:履歴の単調性(I1)、因果性の非巡回性(I2)、トレーサビリティ(I3)である。
フォーマル化は、分散システム、マイクロサービスアーキテクチャ、DLTプラットフォーム、およびマルチパースペクティビティシナリオ(異なる主題から事実を分解する)に適用できる。
モデルに基づくアプローチ(A9): スキーマによるイベント検証、アクター認可、グローバル時間なしで因果連鎖の自動構築(W3)。
論文 参考訳(メタデータ) (2025-10-20T19:26:44Z) - Are Large Reasoning Models Interruptible? [77.53059044071107]
LRM(Large Reasoning Models)は複雑な推論において優れているが、伝統的に静的な「凍った世界」設定で評価されている。
静的な設定で高い精度を達成できる最先端のLEMでさえ、割り込みやコンテキストの変化に晒された場合、予測不能に失敗する可能性があることを示す。
我々の分析ではさらに、漏れの原因、パニック、自己疑念など、いくつかの新しい障害モードを明らかにしている。
論文 参考訳(メタデータ) (2025-10-13T17:59:35Z) - Enhanced accuracy through ensembling of randomly initialized auto-regressive models for time-dependent PDEs [0.0]
機械学習モデルによる自己回帰推論は、連続した予測よりもエラーの蓄積に悩まされ、長期的な精度が制限される。
この課題に対処するために,複数のMLサロゲートモデルを並列にトレーニングし,推論中に集約するディープアンサンブルフレームワークを提案する。
我々はPDEを駆動する3つの力学系 - 不均一なミクロ組織における応力の進化、グレイ・スコット反応拡散、惑星規模の浅層水系 - の枠組みを検証した。
論文 参考訳(メタデータ) (2025-07-05T02:25:12Z) - Model Discovery and Graph Simulation: A Lightweight Gateway to Chaos Engineering [0.0]
カオスエンジニアリングはレジリエンスのリスクを明らかにしますが、広く頻繁に実行するには高価で運用上のリスクがあります。
我々は、単純な接続のみのトポロジモデルにより、フェールストップフォールトの下で、高速で低リスクなアベイラビリティー推定を行うことができると主張している。
論文 参考訳(メタデータ) (2025-06-12T10:59:28Z) - Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models [86.88657425848547]
大型推論モデル(LRMs)はすでに長い連鎖推論のための潜在能力を持っている。
我々は、自動生成の自己検証タスクを使用して、モデルに推論、帰納、誘拐の3つのメタ能力を持たせることを明確にした。
我々の3つのステージ・パイプラインの個別アライメント、パラメータ空間のマージ、ドメイン固有の強化学習は、命令調整ベースラインと比較して10%以上のパフォーマンス向上を実現します。
論文 参考訳(メタデータ) (2025-05-15T17:58:33Z) - Uncertainty Quantification of Surrogate Models using Conformal Prediction [7.445864392018774]
我々は,モデルに依存しない方法で予測を満足する共形予測フレームワークを定式化し,ほぼゼロの計算コストを必要とする。
本稿では,決定論的モデルに対する統計的に有効なエラーバーを提供するとともに,確率論的モデルのエラーバーに対する保証を作成することを検討する。
論文 参考訳(メタデータ) (2024-08-19T10:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。