論文の概要: Measuring Iterative Temporal Reasoning with TimePuzzles
- arxiv url: http://arxiv.org/abs/2601.07148v1
- Date: Mon, 12 Jan 2026 02:39:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.185918
- Title: Measuring Iterative Temporal Reasoning with TimePuzzles
- Title(参考訳): TimePuzzlesを用いた反復時間推論の測定
- Authors: Zhengxiang Wang, Zeyu Dong,
- Abstract要約: TimePuzzlesは、反復的時間的推論を評価するための制約ベースの日付推論タスクである。
各パズルは、実時間アンカーと(異文化間の)カレンダーの関係を組み合わせることで、1つまたは複数の有効な解の日付を認める。
- 参考スコア(独自算出の注目度): 3.294420397461204
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce TimePuzzles, a constraint-based date inference task for evaluating iterative temporal reasoning. Each puzzle combines factual temporal anchors with (cross-cultural) calendar relations, admits one or multiple valid solution dates, and is algorithmically generated for controlled, dynamic, and continual evaluation. Across 13 diverse LLMs, TimePuzzles well distinguishes their iterative temporal reasoning capabilities and remains challenging without tools: GPT-5 reaches only 49.3% accuracy and all other models stay below 31%, despite the dataset's simplicity. Web search consistently yields substantial gains and using code interpreter shows mixed effects, but all models perform much better when constraints are rewritten with explicit dates, revealing a gap in reliable tool use. Overall, TimePuzzles presents a simple, cost-effective diagnostic for tool-augmented iterative temporal reasoning.
- Abstract(参考訳): 時間的推論を反復的に評価するための制約ベースの日付推論タスクであるTimePuzzlesを紹介する。
各パズルは、実時間アンカーと(異文化的な)カレンダーの関係を結合し、1つまたは複数の有効な解日を認め、制御、動的、連続的な評価のためにアルゴリズム的に生成される。
13の多種多様なLCMにおいて、TimePuzzlesはその反復的時間的推論能力をよく区別し、ツールなしでは困難なままである: GPT-5は49.3%の精度にしか達せず、他の全てのモデルはデータセットの単純さにもかかわらず31%未満にとどまっている。
Web検索は一貫して実質的な利益をもたらし、コードインタプリタの使用は混合効果を示すが、制約が明示的な日付で書き直された場合、すべてのモデルのパフォーマンスが向上し、信頼性の高いツールの使用のギャップが明らかになる。
全体として、TimePuzzlesはツール拡張反復時間推論のためのシンプルで費用効率の良い診断を提供する。
関連論文リスト
- MemoTime: Memory-Augmented Temporal Knowledge Graph Enhanced Large Language Model Reasoning [22.89546852658161]
時間的知識グラフは時間的推論の信頼できる情報源を提供する。
既存の TKG ベースの LLM 推論手法は、4つの大きな課題に苦慮している。
メモリ拡張時間知識グラフフレームワークであるMemoTimeを提案する。
論文 参考訳(メタデータ) (2025-10-15T14:43:31Z) - TimeOmni-1: Incentivizing Complex Reasoning with Time Series in Large Language Models [105.47481207029047]
時系列を推論する3つの基本的な機能にまたがる4つのアトミックタスクを形式化した時系列推論スイート(TSR-Suite)を紹介する。
また,時系列推論を必要とする多種多様な実世界の問題に対処するために設計された最初の統一推論モデルであるTime Omni-1を紹介する。
論文 参考訳(メタデータ) (2025-09-29T13:54:34Z) - TIME: A Multi-level Benchmark for Temporal Reasoning of LLMs in Real-World Scenarios [34.611056451149416]
実世界のシナリオにおける時間的推論のためのベンチマークTIMEを提案する。
TIMEは38,522のQAペアで構成され、11のきめ細かいサブタスクを持つ3レベルをカバーする。
推論モデルと非推論モデルについて広範な実験を行う。
TIME-Liteは人手による注釈付きサブセットで、将来の研究を奨励し、時間的推論における標準化された評価を行う。
論文 参考訳(メタデータ) (2025-05-19T09:22:02Z) - Towards Robust Temporal Reasoning of Large Language Models via a Multi-Hop QA Dataset and Pseudo-Instruction Tuning [73.51314109184197]
大規模言語モデル(LLM)には時間的知識の概念を理解することが不可欠である。
本稿では,複数質問応答と複数ホップの時間的推論に焦点をあてた複雑な時間的質問応答データセットであるComplex-TRを提案する。
論文 参考訳(メタデータ) (2023-11-16T11:49:29Z) - Unlocking Temporal Question Answering for Large Language Models with Tailor-Made Reasoning Logic [84.59255070520673]
大きな言語モデル(LLM)は、時間的推論に関わる際に課題に直面します。
本研究では,時間的質問応答タスクに特化して設計された新しいフレームワークであるTempLogicを提案する。
論文 参考訳(メタデータ) (2023-05-24T10:57:53Z) - Video Anomaly Detection by Solving Decoupled Spatio-Temporal Jigsaw
Puzzles [67.39567701983357]
ビデオ異常検出(VAD)はコンピュータビジョンにおいて重要なトピックである。
近年の自己教師型学習の進歩に触発された本論文は,直感的かつ難解なプレテキストタスクを解くことによって,VADに対処する。
提案手法は3つの公開ベンチマークにおいて最先端のベンチマークよりも優れている。
論文 参考訳(メタデータ) (2022-07-20T19:49:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。