論文の概要: Measuring Iterative Temporal Reasoning with Time Puzzles
- arxiv url: http://arxiv.org/abs/2601.07148v2
- Date: Tue, 13 Jan 2026 06:40:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 14:06:39.272316
- Title: Measuring Iterative Temporal Reasoning with Time Puzzles
- Title(参考訳): 時間ノズルによる反復時間共振の測定
- Authors: Zhengxiang Wang, Zeyu Dong,
- Abstract要約: Time Puzzlesは、反復的時間的推論を評価するための制約ベースの日付推論タスクである。
各パズルは、実時間アンカーと(異文化間の)カレンダーの関係を組み合わせることで、1つまたは複数の有効な解の日付を認める。
- 参考スコア(独自算出の注目度): 3.294420397461204
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Time Puzzles, a constraint-based date inference task for evaluating iterative temporal reasoning. Each puzzle combines factual temporal anchors with (cross-cultural) calendar relations, admits one or multiple valid solution dates, and is algorithmically generated for controlled, dynamic, and continual evaluation. Across 13 diverse LLMs, Time Puzzles well distinguishes their iterative temporal reasoning capabilities and remains challenging without tools: GPT-5 reaches only 49.3% accuracy and all other models stay below 31%, despite the dataset's simplicity. Web search consistently yields substantial gains and using code interpreter shows mixed effects, but all models perform much better when constraints are rewritten with explicit dates, revealing a gap in reliable tool use. Overall, Time Puzzles presents a simple, cost-effective diagnostic for tool-augmented iterative temporal reasoning.
- Abstract(参考訳): 制約に基づく時間的推論タスクであるTime Puzzlesを導入し、時間的推論を反復的に評価する。
各パズルは、実時間アンカーと(異文化的な)カレンダーの関係を結合し、1つまたは複数の有効な解日を認め、制御、動的、連続的な評価のためにアルゴリズム的に生成される。
13種類のLCMをまたいで、Time Puzzlesはその反復的時間的推論能力をよく区別し、ツールなしでは困難なままである: GPT-5は49.3%の精度にしか達せず、他の全てのモデルはデータセットの単純さにもかかわらず31%未満にとどまっている。
Web検索は一貫して実質的な利益をもたらし、コードインタプリタの使用は混合効果を示すが、制約が明示的な日付で書き直された場合、すべてのモデルのパフォーマンスが向上し、信頼性の高いツールの使用のギャップが明らかになる。
全体として、Time Puzzlesはツール強化反復時間推論のためのシンプルで費用効率の良い診断を提供する。
関連論文リスト
- MemoTime: Memory-Augmented Temporal Knowledge Graph Enhanced Large Language Model Reasoning [22.89546852658161]
時間的知識グラフは時間的推論の信頼できる情報源を提供する。
既存の TKG ベースの LLM 推論手法は、4つの大きな課題に苦慮している。
メモリ拡張時間知識グラフフレームワークであるMemoTimeを提案する。
論文 参考訳(メタデータ) (2025-10-15T14:43:31Z) - TimeOmni-1: Incentivizing Complex Reasoning with Time Series in Large Language Models [105.47481207029047]
時系列を推論する3つの基本的な機能にまたがる4つのアトミックタスクを形式化した時系列推論スイート(TSR-Suite)を紹介する。
また,時系列推論を必要とする多種多様な実世界の問題に対処するために設計された最初の統一推論モデルであるTime Omni-1を紹介する。
論文 参考訳(メタデータ) (2025-09-29T13:54:34Z) - TIME: A Multi-level Benchmark for Temporal Reasoning of LLMs in Real-World Scenarios [34.611056451149416]
実世界のシナリオにおける時間的推論のためのベンチマークTIMEを提案する。
TIMEは38,522のQAペアで構成され、11のきめ細かいサブタスクを持つ3レベルをカバーする。
推論モデルと非推論モデルについて広範な実験を行う。
TIME-Liteは人手による注釈付きサブセットで、将来の研究を奨励し、時間的推論における標準化された評価を行う。
論文 参考訳(メタデータ) (2025-05-19T09:22:02Z) - Towards Robust Temporal Reasoning of Large Language Models via a Multi-Hop QA Dataset and Pseudo-Instruction Tuning [73.51314109184197]
大規模言語モデル(LLM)には時間的知識の概念を理解することが不可欠である。
本稿では,複数質問応答と複数ホップの時間的推論に焦点をあてた複雑な時間的質問応答データセットであるComplex-TRを提案する。
論文 参考訳(メタデータ) (2023-11-16T11:49:29Z) - Unlocking Temporal Question Answering for Large Language Models with Tailor-Made Reasoning Logic [84.59255070520673]
大きな言語モデル(LLM)は、時間的推論に関わる際に課題に直面します。
本研究では,時間的質問応答タスクに特化して設計された新しいフレームワークであるTempLogicを提案する。
論文 参考訳(メタデータ) (2023-05-24T10:57:53Z) - Video Anomaly Detection by Solving Decoupled Spatio-Temporal Jigsaw
Puzzles [67.39567701983357]
ビデオ異常検出(VAD)はコンピュータビジョンにおいて重要なトピックである。
近年の自己教師型学習の進歩に触発された本論文は,直感的かつ難解なプレテキストタスクを解くことによって,VADに対処する。
提案手法は3つの公開ベンチマークにおいて最先端のベンチマークよりも優れている。
論文 参考訳(メタデータ) (2022-07-20T19:49:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。