論文の概要: Do Large Language Models (LLMs) Understand Chronology?
- arxiv url: http://arxiv.org/abs/2511.14214v1
- Date: Tue, 18 Nov 2025 07:45:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.991833
- Title: Do Large Language Models (LLMs) Understand Chronology?
- Title(参考訳): 大型言語モデル(LLM)は年表に従うか?
- Authors: Pattaraphon Kenny Wongchamcharoen, Paul Glasserman,
- Abstract要約: 大規模言語モデル(LLM)は、金融や経済学においてますます使われており、ルックアヘッドバイアスに対する迅速な試みは、モデルが時系列を理解することを暗黙的に仮定している。
我々は、モデルが事前学習から既に知っている事実よりも複雑さが増大する一連の時系列順序タスクで、この基本的な問題を検証する。
GPT-4.1, Claude-3.7 Sonnet, with and without Extended Thinking (ET) and GPT-5 across multiple reasoning-effort settings。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly used in finance and economics, where prompt-based attempts against look-ahead bias implicitly assume that models understand chronology. We test this fundamental question with a series of chronological ordering tasks with increasing complexities over facts the model already knows from pre-training. Our tasks cover (1) chronological ordering, (2) conditional sorting (filter, then order), and (3) anachronism detection. We evaluate GPT-4.1, Claude-3.7 Sonnet, with and without Extended Thinking (ET), and GPT-5 across multiple reasoning-effort settings. Across models, Exact match rate drops sharply as sequences lengthen even while rank correlations stay high as LLMs largely preserve local order but struggle to maintain a single globally consistent timeline. In conditional sorting, most failures stem from the filtering step rather than the ordering step, but GPT-5 and Claude-3.7 Sonnet with Extended Thinking outshine normal models significantly. Lastly, anachronism detection is found to be the easiest task for the LLMs but performance still declines with increasingly overlapping timelines or entities. Overall, our main contribution is showing that allocating explicit reasoning budget helps with chronological ordering with GPT-5 at medium/high reasoning effort achieving flawless ordering at all lengths and perfect conditional sorting (both self-filtered and given-subset), whereas low/minimal effort degrades with longer lists, mirroring earlier models. Our findings delineate limits of current LLMs on chronological tasks, providing insights into task complexity, and demonstrate scenarios in which reasoning helps. These patterns are important for the real-time application of LLMs in finance. We release all code and evaluation templates to support full reproducibility.
- Abstract(参考訳): 大規模言語モデル(LLM)は、金融や経済学においてますます使われており、ルックアヘッドバイアスに対する迅速な試みは、モデルが時系列を理解することを暗黙的に仮定している。
我々は、モデルが事前学習から既に知っている事実よりも複雑さが増大する一連の時系列順序タスクで、この基本的な問題を検証する。
本課題は,(1)時系列順,(2)条件ソート(フィルタ,次に順序),(3)アナクロニズム検出をカバーしている。
GPT-4.1, Claude-3.7 Sonnet, with and without Extended Thinking (ET) and GPT-5 across multiple reasoning-effort settings。
モデル全体では、LLMが局所的な順序を保ちながら、一貫した一貫したタイムラインを維持するのに苦労しているため、ランク相関は高く保たれているが、シーケンスが長くなるにつれて、厳密なマッチングレートは急激に低下する。
条件付きソートでは、ほとんどの障害は順序付けステップではなくフィルタリングステップに由来するが、拡張思考モデルではGPT-5とClaude-3.7 Sonnetは明らかに明るい。
最後に、アナクロニズム検出はLLMにとって最も簡単なタスクであることがわかったが、スケジュールやエンティティが重なるにつれてパフォーマンスが低下している。
全体として、明確な推論予算を割り当てることによって、全ての長さで不完全な順序付けを達成し、完全な条件ソート(自己フィルターと与えられたサブセットの両方)を達成できる中・高推論において、GPT-5による時間的順序付けが有効であることを示し、一方、低最小の取り組みは、より長いリストで劣化し、以前のモデルを反映している。
本研究は,時間的タスクにおける現在のLCMの限界を明らかにし,タスクの複雑さに関する洞察を与え,推論が役立つシナリオを実証する。
これらのパターンは金融におけるLLMのリアルタイム適用において重要である。
すべてのコードと評価テンプレートをリリースし、完全な再現性をサポートします。
関連論文リスト
- Evaluating LLMs' Reasoning Over Ordered Procedural Steps [3.9261455058620083]
手順の順序が結果に直接影響を与える手続き的シーケンスに対する推論は、大規模言語モデル(LLM)にとって重要な能力である。
本研究では,食品レシピのキュレートしたデータセットを用いて,シャッフルした手続き段階からグローバルに順序付けられたシーケンスを再構築する作業について検討する。
本稿では、ランク付けとシーケンスアライメントから確立されたメトリクスを適応させる包括的な評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-25T23:37:00Z) - TimeOmni-1: Incentivizing Complex Reasoning with Time Series in Large Language Models [105.47481207029047]
時系列を推論する3つの基本的な機能にまたがる4つのアトミックタスクを形式化した時系列推論スイート(TSR-Suite)を紹介する。
また,時系列推論を必要とする多種多様な実世界の問題に対処するために設計された最初の統一推論モデルであるTime Omni-1を紹介する。
論文 参考訳(メタデータ) (2025-09-29T13:54:34Z) - Order Doesn't Matter, But Reasoning Does: Training LLMs with Order-Centric Augmentation [57.570754504160305]
本稿では,論理的推論における可換性に基づく順序中心のデータ拡張フレームワークを提案する。
秩序中心の拡張を利用することで、モデルはより柔軟で一般化された推論プロセスを開発することができる。
論文 参考訳(メタデータ) (2025-02-27T09:25:50Z) - Can Multimodal LLMs do Visual Temporal Understanding and Reasoning? The answer is No! [22.75945626401567]
本稿では,TemporalVQAという評価ベンチマークを提案する。
第1部では、時間的に連続するビデオフレームを分析してイベントのシーケンスを決定するためにMLLMが必要である。
第2部では、複数選択の質問としてフレーム化された時間差のある画像ペアを提示し、MLLMに秒から数年のオプションで画像間のタイムラプスを見積もる。
GPT-4o や Gemini-1.5-Pro などのモデルを含む先進MLLM の評価は,重要な課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-01-18T06:41:48Z) - Narrative-of-Thought: Improving Temporal Reasoning of Large Language Models via Recounted Narratives [6.631626634132574]
時間的推論において重要な課題である時間的グラフ生成について検討する。
この課題は,最も強力な言語モデルにおいても大きな課題となる。
本稿では,時間的推論,Narrative-of-Thoughtに適した新しいプロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-10-07T23:36:05Z) - Graph-enhanced Large Language Models in Asynchronous Plan Reasoning [18.402877904882107]
大規模な言語モデル(LLM)は、ベンチマークAsyncHowのタスク解決プロセスに関するイラストが提供されないと、動作が悪くなります。
そこで我々は,グラフと自然言語のプロンプトを組み合わせ,最先端の結果を得るPlan Like a Graph (PLaG) という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-05T08:26:33Z) - M4LE: A Multi-Ability Multi-Range Multi-Task Multi-Domain Long-Context Evaluation Benchmark for Large Language Models [58.54538318912159]
M4LEは、大規模言語モデル(LLM)の時系列能力を評価するためのベンチマークである。
M4LEは、36のNLPタスクタイプと12のドメインからなる多様なNLPタスクプールに基づいている。
我々は,11個のLLM,特に長文入力に最適化されたLLMについて,系統評価を行った。
論文 参考訳(メタデータ) (2023-10-30T03:11:30Z) - Found in the Middle: Permutation Self-Consistency Improves Listwise Ranking in Large Language Models [63.714662435555674]
大規模言語モデル(LLM)は、文脈の使い方に位置バイアスを示す。
我々は,ブラックボックスLLMのランキングリスト出力に対して,自己整合性(permutation self-consistency)を提案する。
LLaMA v2 (70B) では GPT-3.5 では 7-18% , LLaMA v2 (70B) では 8-16% である。
論文 参考訳(メタデータ) (2023-10-11T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。