論文の概要: SPAN: Benchmarking and Improving Cross-Calendar Temporal Reasoning of Large Language Models
- arxiv url: http://arxiv.org/abs/2511.09993v1
- Date: Fri, 14 Nov 2025 01:24:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.623219
- Title: SPAN: Benchmarking and Improving Cross-Calendar Temporal Reasoning of Large Language Models
- Title(参考訳): SPAN: 大規模言語モデルの経時的推論のベンチマークと改善
- Authors: Zhongjian Miao, Hao Fu, Chen Wei,
- Abstract要約: SPANは、経時的時間的推論のベンチマークである。
SPANには10カレンダの時間的推論方向、2つの推論タイプ、6つのカレンダーに2つの質問形式がある。
本研究では,動的インスタンス生成のためのテンプレート駆動型プロトコルを提案する。
- 参考スコア(独自算出の注目度): 7.437301045895224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce SPAN, a cross-calendar temporal reasoning benchmark, which requires LLMs to perform intra-calendar temporal reasoning and inter-calendar temporal conversion. SPAN features ten cross-calendar temporal reasoning directions, two reasoning types, and two question formats across six calendars. To enable time-variant and contamination-free evaluation, we propose a template-driven protocol for dynamic instance generation that enables assessment on a user-specified Gregorian date. We conduct extensive experiments on both open- and closed-source state-of-the-art (SOTA) LLMs over a range of dates spanning 100 years from 1960 to 2060. Our evaluations show that these LLMs achieve an average accuracy of only 34.5%, with none exceeding 80%, indicating that this task remains challenging. Through in-depth analysis of reasoning types, question formats, and temporal reasoning directions, we identify two key obstacles for LLMs: Future-Date Degradation and Calendar Asymmetry Bias. To strengthen LLMs' cross-calendar temporal reasoning capability, we further develop an LLM-powered Time Agent that leverages tool-augmented code generation. Empirical results show that Time Agent achieves an average accuracy of 95.31%, outperforming several competitive baselines, highlighting the potential of tool-augmented code generation to advance cross-calendar temporal reasoning. We hope this work will inspire further efforts toward more temporally and culturally adaptive LLMs.
- Abstract(参考訳): SPANは,LLMがカレンダ内時間的推論およびカレンダ間時間的変換を行うのに必要な,カレンダ間時間的推論ベンチマークである。
SPANには10カレンダの時間的推論方向、2つの推論タイプ、6つのカレンダーに2つの質問形式がある。
時間変化と汚染のない評価を可能にするため,ユーザが指定したグレゴリオ暦の日付を評価可能な動的インスタンス生成のためのテンプレート駆動型プロトコルを提案する。
我々は1960年から2060年までの100年間の期間にわたって,オープンソース・クローズド・ソース・オブ・ザ・アート(SOTA)LLMの広範な実験を行った。
評価の結果,これらのLCMの平均精度は34.5%であり,80%を超えなかった。
推論型,質問形式,時間的推論方向の詳細な分析を通じて,将来予測分解とカレンダー非対称性バイアスの2つの主要な障害を同定する。
LLMの時間的時間的推論能力を強化するため,ツール拡張コード生成を利用した時間エージェントを開発した。
実証的な結果から、Time Agentは平均95.31%の精度を達成し、いくつかの競争ベースラインを上回り、ツール拡張コード生成の可能性を強調した。
この取り組みが、より時間的かつ文化的に適応したLDMへのさらなる取り組みを促すことを願っている。
関連論文リスト
- MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization [103.74675519953898]
ロングチェーンのリフレクティブ推論は、複雑な現実世界の問題を解決するための前提条件である。
我々は42の難解な合成タスクの1,260のサンプルからなるベンチマークを構築した。
トレーニング後のデータを生成し、そのようなデータを活用するための学習パラダイムを探索する。
論文 参考訳(メタデータ) (2025-10-09T17:53:58Z) - ExAnte: A Benchmark for Ex-Ante Inference in Large Language Models [12.948099229475265]
大型言語モデル (LLM) は、元Antの推論において重大な課題に直面している。
時間的カットオフを強制する明示的なプロンプトであっても、LLMは指定されたカットオフを超えた事象の内在的な知識に影響された出力をしばしば生成する。
本稿では、このような時間的制約に固執しながら、LCMの推論能力を評価するための新しいタスクとベンチマークを提案する。
論文 参考訳(メタデータ) (2025-05-26T05:39:57Z) - Temporal Alignment of LLMs through Cycle Encoding for Long-Range Time Representations [57.01193643163492]
大規模言語モデル(LLM)は、特に長期にわたって時間的ミスアライメントの問題に悩まされる。
本稿では,LLMの長期的不整合に対処する手法として,Ticktack(ティックタック)を提案する。
論文 参考訳(メタデータ) (2025-03-06T06:59:09Z) - Are LLMs Prescient? A Continuous Evaluation using Daily News as the Oracle [13.192628306219248]
本研究では,大規模言語モデルの時間的一般化と予測能力を評価するための連続評価手法として,将来の事象予測を提案する。
私たちのベンチマークであるDaily Oracleは、毎日のニュースから質問と回答のペアを自動的に生成します。
論文 参考訳(メタデータ) (2024-11-13T04:20:20Z) - A Comprehensive Evaluation of Large Language Models on Temporal Event Forecasting [45.0261082985087]
時間的事象予測のための大規模言語モデル(LLM)を総合的に評価する。
テキストによる微調整 LLM は性能を著しく向上させることができる。
しかし、LLMでは人気バイアスやロングテール問題などの問題が続いている。
論文 参考訳(メタデータ) (2024-07-16T11:58:54Z) - Living in the Moment: Can Large Language Models Grasp Co-Temporal Reasoning? [70.19200858203388]
時間的推論は、世界を理解するための大きな言語モデルの基本である。
CoTempQAは4つの時間的シナリオを含むベンチマークである。
実験の結果,LLMの性能と人間レベルの推論との間に大きなギャップがあることが判明した。
論文 参考訳(メタデータ) (2024-06-13T12:56:21Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。