論文の概要: TIME: Temporally Intelligent Meta-reasoning Engine for Context Triggered Explicit Reasoning
- arxiv url: http://arxiv.org/abs/2601.05300v1
- Date: Thu, 08 Jan 2026 13:24:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.739506
- Title: TIME: Temporally Intelligent Meta-reasoning Engine for Context Triggered Explicit Reasoning
- Title(参考訳): TIME: コンテキストトリガーによる明示的推論のための一時的インテリジェントなメタ推論エンジン
- Authors: Susmit Das,
- Abstract要約: 我々は、言論や時間的手がかりによって駆動される文脈に敏感なリソースとして、明示的な推論を扱うフレームワークであるTIMEを紹介する。
Timeは、オプションのISO 8601 Time>タグ、サイレントギャップを表すチキンターン、返信のどこにでも現れるショートシンク>ブロックとの対話を強化します。
時系列を探索する対話ベンチマークであるTIMEBench, ギャップとオフセット下でのコモンセンス, 異常検出, 連続性を評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning oriented large language models often expose explicit "thinking" as long, turn-global traces at the start of every response, either always on or toggled externally at inference time. While useful for arithmetic, programming, and problem solving, this design is costly, blurs claim level auditability, and cannot re-trigger explicit reasoning once the model begins presenting. Dialogue models are also largely blind to temporal structure, treating replies after seconds and replies after weeks as equivalent unless time is stated in text. We introduce TIME, the Temporally Intelligent Meta-reasoning Engine, a behavioral alignment framework that treats explicit reasoning as a context sensitive resource driven by discourse and temporal cues. TIME augments dialogue with optional ISO 8601 <time> tags, tick turns that represent silent gaps, and short <think> blocks that can appear anywhere in a reply. A four-phase curriculum including a small, maximally diverse full-batch alignment step trains Qwen3 dense models to invoke brief, in-place reasoning bursts and keep user facing text compact. We evaluate with TIMEBench, a temporally grounded dialogue benchmark probing chronology, commonsense under gaps and offsets, anomaly detection, and continuity. Across 4B to 32B scales, TIME improves TIMEBench scores over base Qwen3 in both thinking and no-thinking modes while reducing reasoning tokens by about an order of magnitude. Our training data and code are available at https://github.com/The-Coherence-Initiative/TIME and TIMEBench is available at https://github.com/The-Coherence-Initiative/TIMEBench
- Abstract(参考訳): オブジェクト指向の大規模言語モデルは、全ての応答の開始時に、常にオンか、推論時に外部に切り替えられたターン・グローバルのトレースとして、明示的な"思考"を露呈することが多い。
算術、プログラミング、問題解決に有用であるが、この設計は高価であり、請求レベルの監査性を曖昧にし、モデルが提示し始めると、明示的な推論を再訓練することができない。
対話モデルは時間構造にはほとんど盲目であり、応答は数秒後に、応答は数週間後にも同様に扱われる。
我々は、言論と時間的手がかりによって駆動される文脈に敏感なリソースとして、明示的な推論を扱う行動アライメントフレームワークであるTIMEを紹介した。
TIMEは、オプションのISO 8601 <time>タグ、サイレントギャップを表すチクターン、返信のどこにでも現れる短い<think>ブロックとの対話を強化します。
小さく、最大に多様なフルバッチアライメントステップを含む4段階のカリキュラムは、Qwen3密集モデルを訓練し、簡潔でインプレースな推論バーストを起動し、ユーザの対向するテキストをコンパクトに保つ。
我々はTIMEBench, 時間的基盤を用いた対話ベンチマークを用いて, 時系列, ギャップとオフセットのコモンセンス, 異常検出, 連続性を検証した。
4Bから32BスケールのTIMEBenchでは、思考モードと思考モードの両方において、Qwen3ベースよりもTIMEBenchスコアを改善し、推論トークンを約1桁削減する。
トレーニングデータとコードはhttps://github.com/The-Coherence-Initiative/TIMEBenchで、TIMEBenchはhttps://github.com/The-Coherence-Initiative/TIMEBenchで利用可能です。
関連論文リスト
- Game-Time: Evaluating Temporal Dynamics in Spoken Language Models [93.844257719952]
時間的能力を評価するためにGame-Time Benchmarkフレームワークを導入します。
多様なSLMモデルについて評価した結果,性能の相違が明らかとなった。
GameTime Benchmarkは、より時間的に認識された会話型AIに向けた将来の研究を導くための基盤を提供する。
論文 参考訳(メタデータ) (2025-09-30T15:23:39Z) - KnowMT-Bench: Benchmarking Knowledge-Intensive Long-Form Question Answering in Multi-Turn Dialogues [58.305425399644086]
MT-LFQA(Multi-Turn Long-Form Question Answering)は、知識集約ドメインにおけるLLM(Large Language Models)の重要な応用パラダイムである。
textbfKnowMT-Benchは、知識集約的な分野にわたるLLMのためのMT-LFQAを体系的に評価するために設計された、テキストファーストなベンチマークである。
論文 参考訳(メタデータ) (2025-09-26T04:32:29Z) - Thinking Before You Speak: A Proactive Test-time Scaling Approach [54.8205006555199]
emphThinking Before You Speak (TBYS)という名前の推論フレームワークとして、私たちのアイデアを実装しています。
インテリジェンス生成のためのコンテキスト内サンプルを自動的に収集・フィルタリングするパイプラインを設計する。
挑戦的な数学的データセットの実験は、TBYSの有効性を検証する。
論文 参考訳(メタデータ) (2025-08-26T03:43:32Z) - STITCH: Simultaneous Thinking and Talking with Chunked Reasoning for Spoken Language Models [131.90117151306993]
音声言語モデル(SLM)は、音声入力を受信し、音声応答を生成するように設計されている。
現在のSLMは、応答する前に、内部的に無意味な思考プロセスを実行する能力が欠けている。
未知の推論チャンクと音声応答チャンクを交互に生成する新しい手法であるStitchを提案する。
論文 参考訳(メタデータ) (2025-07-21T08:30:03Z) - From What to Respond to When to Respond: Timely Response Generation for Open-domain Dialogue Agents [26.437011114518917]
TimelyChatベンチマークは、適切な時間間隔を予測し、時間条件の応答を生成する言語モデルの能力を評価する。
我々は,時間的コモンセンス知識グラフからラベルのないイベント知識を活用することで,大規模トレーニングデータセットを構築した。
次に、タイムインターバルを積極的に予測し、それらのインターバルに合わせてタイムリーなレスポンスを生成するために設計された対話エージェントであるTimerを訓練する。
論文 参考訳(メタデータ) (2025-06-17T07:56:32Z) - Once Upon a $\textit{Time}$ in $\textit{Graph}$: Relative-Time
Pretraining for Complex Temporal Reasoning [96.03608822291136]
我々は時間の性質を生かし、時間軸に沿った事象の相対的な配置に基づくグラフ構造の構築を提案する。
グラフビューにインスパイアされたRemeMoを提案する。これは2つの文間の時間関係をモデル化することによって、時間的に観察されたすべての事実を明示的に接続する。
実験の結果、RemeMoは複数の時間的質問応答データセット上でベースラインT5よりも優れていた。
論文 参考訳(メタデータ) (2023-10-23T08:49:00Z) - Towards Benchmarking and Improving the Temporal Reasoning Capability of
Large Language Models [44.670550143705746]
本研究では,大規模言語モデルの時間的推論能力を評価するために,総合的な探索データセットテンプレートを導入する。
我々のデータセットには3つの時間的推論レベルに関する質問が含まれている。
また,大規模言語モデルの時間的推論能力を向上させるための新しい学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-15T08:44:41Z) - TIMEDIAL: Temporal Commonsense Reasoning in Dialog [43.24596551545824]
本稿では,対話における時間的推論能力について,事前学習した言語モデルについて検討する。
我々は、TIME-DIALを1.1K以上の精巧なダイアログで複数選択のクローゼタスクとして定式化する。
実証的な結果は、最高のパフォーマンスモデルでさえ、人間よりもこのタスクに苦労していることを示している。
論文 参考訳(メタデータ) (2021-06-08T17:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。