論文の概要: Measuring Iterative Temporal Reasoning with Time Puzzles
- arxiv url: http://arxiv.org/abs/2601.07148v2
- Date: Tue, 13 Jan 2026 06:40:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 14:06:39.272316
- Title: Measuring Iterative Temporal Reasoning with Time Puzzles
- Title(参考訳): 時間ノズルによる反復時間共振の測定
- Authors: Zhengxiang Wang, Zeyu Dong,
- Abstract要約: Time Puzzlesは、反復的時間的推論を評価するための制約ベースの日付推論タスクである。
各パズルは、実時間アンカーと(異文化間の)カレンダーの関係を組み合わせることで、1つまたは複数の有効な解の日付を認める。
- 参考スコア(独自算出の注目度): 3.294420397461204
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Time Puzzles, a constraint-based date inference task for evaluating iterative temporal reasoning. Each puzzle combines factual temporal anchors with (cross-cultural) calendar relations, admits one or multiple valid solution dates, and is algorithmically generated for controlled, dynamic, and continual evaluation. Across 13 diverse LLMs, Time Puzzles well distinguishes their iterative temporal reasoning capabilities and remains challenging without tools: GPT-5 reaches only 49.3% accuracy and all other models stay below 31%, despite the dataset's simplicity. Web search consistently yields substantial gains and using code interpreter shows mixed effects, but all models perform much better when constraints are rewritten with explicit dates, revealing a gap in reliable tool use. Overall, Time Puzzles presents a simple, cost-effective diagnostic for tool-augmented iterative temporal reasoning.
- Abstract(参考訳): 制約に基づく時間的推論タスクであるTime Puzzlesを導入し、時間的推論を反復的に評価する。
各パズルは、実時間アンカーと(異文化的な)カレンダーの関係を結合し、1つまたは複数の有効な解日を認め、制御、動的、連続的な評価のためにアルゴリズム的に生成される。
13種類のLCMをまたいで、Time Puzzlesはその反復的時間的推論能力をよく区別し、ツールなしでは困難なままである: GPT-5は49.3%の精度にしか達せず、他の全てのモデルはデータセットの単純さにもかかわらず31%未満にとどまっている。
Web検索は一貫して実質的な利益をもたらし、コードインタプリタの使用は混合効果を示すが、制約が明示的な日付で書き直された場合、すべてのモデルのパフォーマンスが向上し、信頼性の高いツールの使用のギャップが明らかになる。
全体として、Time Puzzlesはツール強化反復時間推論のためのシンプルで費用効率の良い診断を提供する。
関連論文リスト
- Chain-of-thought Reviewing and Correction for Time Series Question Answering [22.889720488678076]
本稿では,時系列質問応答の明示的な補正機構を備えた多段階推論を行うT3LLMを提案する。
このフレームワーク内では、作業者は構造化されたプロンプトの下で段階的思考連鎖(CoT)を生成し、レビュアーは推論を検査し、誤ったステップを特定し、修正的なコメントを提供する。
複数の実世界のTSQAベンチマークの実験により、T3LLMは強力なLLMベースのベースラインに対して最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2025-12-27T15:54:18Z) - MemoTime: Memory-Augmented Temporal Knowledge Graph Enhanced Large Language Model Reasoning [22.89546852658161]
時間的知識グラフは時間的推論の信頼できる情報源を提供する。
既存の TKG ベースの LLM 推論手法は、4つの大きな課題に苦慮している。
メモリ拡張時間知識グラフフレームワークであるMemoTimeを提案する。
論文 参考訳(メタデータ) (2025-10-15T14:43:31Z) - TimeOmni-1: Incentivizing Complex Reasoning with Time Series in Large Language Models [105.47481207029047]
時系列を推論する3つの基本的な機能にまたがる4つのアトミックタスクを形式化した時系列推論スイート(TSR-Suite)を紹介する。
また,時系列推論を必要とする多種多様な実世界の問題に対処するために設計された最初の統一推論モデルであるTime Omni-1を紹介する。
論文 参考訳(メタデータ) (2025-09-29T13:54:34Z) - TIME: A Multi-level Benchmark for Temporal Reasoning of LLMs in Real-World Scenarios [34.611056451149416]
実世界のシナリオにおける時間的推論のためのベンチマークTIMEを提案する。
TIMEは38,522のQAペアで構成され、11のきめ細かいサブタスクを持つ3レベルをカバーする。
推論モデルと非推論モデルについて広範な実験を行う。
TIME-Liteは人手による注釈付きサブセットで、将来の研究を奨励し、時間的推論における標準化された評価を行う。
論文 参考訳(メタデータ) (2025-05-19T09:22:02Z) - Learning to Reason Over Time: Timeline Self-Reflection for Improved Temporal Reasoning in Language Models [21.579319926212296]
大規模言語モデル(LLM)は、一貫性のあるテキストを生成し、コンテキストを理解し、推論タスクを実行するための強力なツールとして登場した。
彼らは時間的推論に苦しむが、それはイベントシーケンシングや時間的関係、時間的関係などの時間的関連情報を処理する必要がある。
我々は,タイムライン構築と反復的自己回帰を組み合わせた多段階プロセスを通じて,LLMの時間的推論能力を高める新しいフレームワークであるTISERを紹介する。
論文 参考訳(メタデータ) (2025-04-07T16:51:45Z) - Adaptive Distraction: Probing LLM Contextual Robustness with Automated Tree Search [76.54475437069395]
大きな言語モデル(LLM)は、意味的に一貫性があるがタスクに依存しないコンテキスト情報に直面している場合、元のパフォーマンスを維持するのに苦労することが多い。
本稿では,木探索に基づく動的散逸生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-03T18:43:36Z) - ChronoSense: Exploring Temporal Understanding in Large Language Models with Time Intervals of Events [0.20132569095596248]
我々はChronoSenseについて紹介する。ChronoSenseは大規模言語モデルの時間的理解を評価するための新しいベンチマークである。
このベンチマークを用いて7つのLLMの性能評価を行い, モデルがアレン関係, 対称関係であっても, 全く異なる扱いをすることを示した。
全体として、モデルの性能の低さは、LLMにおける時間的理解の改善の必要性を強調している。
論文 参考訳(メタデータ) (2025-01-06T14:27:41Z) - Navigating the Labyrinth: Evaluating LLMs' Ability to Reason About Search Problems [62.76627483915117]
大規模言語モデル(LLM)は、最近、数学と推論ベンチマークで印象的なパフォーマンスを達成した。
直感的なパズルにインスパイアされた11のユニークな検索問題を含む新しいベンチマークであるSearchBenchを紹介した。
ステップバイステップで言語のみの推論を用いることで、最も先進的なLLMでさえ、SearchBenchの解決に失敗することを示します。
論文 参考訳(メタデータ) (2024-06-18T00:44:58Z) - Towards Robust Temporal Reasoning of Large Language Models via a Multi-Hop QA Dataset and Pseudo-Instruction Tuning [73.51314109184197]
大規模言語モデル(LLM)には時間的知識の概念を理解することが不可欠である。
本稿では,複数質問応答と複数ホップの時間的推論に焦点をあてた複雑な時間的質問応答データセットであるComplex-TRを提案する。
論文 参考訳(メタデータ) (2023-11-16T11:49:29Z) - Unlocking Temporal Question Answering for Large Language Models with Tailor-Made Reasoning Logic [84.59255070520673]
大きな言語モデル(LLM)は、時間的推論に関わる際に課題に直面します。
本研究では,時間的質問応答タスクに特化して設計された新しいフレームワークであるTempLogicを提案する。
論文 参考訳(メタデータ) (2023-05-24T10:57:53Z) - Video Anomaly Detection by Solving Decoupled Spatio-Temporal Jigsaw
Puzzles [67.39567701983357]
ビデオ異常検出(VAD)はコンピュータビジョンにおいて重要なトピックである。
近年の自己教師型学習の進歩に触発された本論文は,直感的かつ難解なプレテキストタスクを解くことによって,VADに対処する。
提案手法は3つの公開ベンチマークにおいて最先端のベンチマークよりも優れている。
論文 参考訳(メタデータ) (2022-07-20T19:49:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。