論文の概要: Timo: Towards Better Temporal Reasoning for Language Models
- arxiv url: http://arxiv.org/abs/2406.14192v1
- Date: Thu, 20 Jun 2024 10:52:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 14:11:31.168565
- Title: Timo: Towards Better Temporal Reasoning for Language Models
- Title(参考訳): Timo: 言語モデルのための時間的推論の改善を目指して
- Authors: Zhaochen Su, Jun Zhang, Tong Zhu, Xiaoye Qu, Juntao Li, Min Zhang, Yu Cheng,
- Abstract要約: 時間に関する推論は、大言語モデルが世界を理解するために不可欠である。
私たちは、様々な時間的推論タスクを扱う普遍的なフレームワークを構築します。
時間的推論を 7B と 13B スケールで最適化するモデルである Timo を開発した。
- 参考スコア(独自算出の注目度): 38.27548375148604
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Reasoning about time is essential for Large Language Models (LLMs) to understand the world. Previous works focus on solving specific tasks, primarily on time-sensitive question answering. While these methods have proven effective, they cannot generalize to a wider spectrum of temporal reasoning tasks. Therefore, we propose a crucial question: Can we build a universal framework to handle a variety of temporal reasoning tasks? To that end, we systematically study 38 temporal reasoning tasks. Based on the observation that 19 tasks are directly related to mathematics, we first leverage the available mathematical dataset to set a solid foundation for temporal reasoning. However, the in-depth study indicates that focusing solely on mathematical enhancement falls short of addressing pure temporal reasoning tasks. To mitigate this limitation, we propose a simple but effective self-critic temporal optimization method to enhance the model's temporal reasoning capabilities without sacrificing general task abilities. Finally, we develop Timo, a model designed to excel in temporal reasoning at the 7B and 13B scales. Notably, Timo outperforms the counterpart LLMs by 10.0 and 7.6 in average accuracy scores and achieves the new state-of-the-art (SOTA) performance of comparable size. Extensive experiments further validate our framework's effectiveness and its generalization across diverse temporal tasks. The code is available at https://github.com/zhaochen0110/Timo.
- Abstract(参考訳): 時間に関する推論は、大言語モデル(LLM)が世界を理解するために不可欠である。
これまでの仕事は特定のタスク、主に時間に敏感な質問応答の解決に重点を置いていた。
これらの手法は有効であることが証明されているが、時間的推論タスクの幅広い範囲に一般化することはできない。
そこで我々は,様々な時間的推論タスクを扱う普遍的なフレームワークを構築することができるか,という重要な問いを提案する。
そこで我々は38の時間的推論タスクを体系的に研究した。
19のタスクが数学に直接関連しているという観測に基づいて、まず利用可能な数学的データセットを活用し、時間的推論の基盤を確立する。
しかし、詳細な研究は、数学の強化にのみ焦点を合わせることは、純粋な時間的推論タスクに対処するに足らないことを示唆している。
この制限を緩和するために、一般的なタスク能力を犠牲にすることなく、モデルの時間的推論能力を高めるための、単純で効果的な自己批判時間最適化手法を提案する。
最後に,時間的推論を 7B と 13B スケールで最適化するモデルである Timo を開発した。
ティモは平均精度スコアでLLMを10.0と7.6で上回り、SOTA(State-of-the-art)のパフォーマンスを同等のサイズで達成している。
大規模な実験により、多種多様な時間的タスクにおけるフレームワークの有効性と一般化がさらに検証される。
コードはhttps://github.com/zhaochen0110/Timoで公開されている。
関連論文リスト
- Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z) - Narrative-of-Thought: Improving Temporal Reasoning of Large Language Models via Recounted Narratives [6.631626634132574]
時間的推論において重要な課題である時間的グラフ生成について検討する。
この課題は,最も強力な言語モデルにおいても大きな課題となる。
本稿では,時間的推論,Narrative-of-Thoughtに適した新しいプロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-10-07T23:36:05Z) - Living in the Moment: Can Large Language Models Grasp Co-Temporal Reasoning? [70.19200858203388]
時間的推論は、世界を理解するための大きな言語モデルの基本である。
CoTempQAは4つの時間的シナリオを含むベンチマークである。
実験の結果,LLMの性能と人間レベルの推論との間に大きなギャップがあることが判明した。
論文 参考訳(メタデータ) (2024-06-13T12:56:21Z) - TimeBench: A Comprehensive Evaluation of Temporal Reasoning Abilities in Large Language Models [29.656403397725395]
階層的時間的推論ベンチマークであるTimeBenchを提案する。
TimeBenchは、大規模な言語モデルの時間的推論能力を調べるための徹底的な評価を提供する。
実験結果から, 最先端のLDMと人間の間には, 顕著な性能差があることが示唆された。
論文 参考訳(メタデータ) (2023-11-29T14:30:16Z) - Towards Robust Temporal Reasoning of Large Language Models via a Multi-Hop QA Dataset and Pseudo-Instruction Tuning [73.51314109184197]
大規模言語モデル(LLM)には時間的知識の概念を理解することが不可欠である。
本稿では,複数質問応答と複数ホップの時間的推論に焦点をあてた複雑な時間的質問応答データセットであるComplex-TRを提案する。
論文 参考訳(メタデータ) (2023-11-16T11:49:29Z) - Back to the Future: Towards Explainable Temporal Reasoning with Large
Language Models [33.8108950744839]
そこで本稿では,コンテキストに基づいたイベント発生の予測を行うために,時間的推論を記述可能な最初のタスクを紹介する。
本研究では,時間的予測と説明の最先端性能を実現する方法を示す。
論文 参考訳(メタデータ) (2023-10-02T10:35:23Z) - An Overview Of Temporal Commonsense Reasoning and Acquisition [20.108317515225504]
時間的コモンセンス推論(英: Temporal Commonsense reasoning)とは、フレーズ、行動、出来事の典型的な時間的文脈を理解する能力である。
大規模言語モデルの性能に関する最近の研究は、しばしば推論においてショートカットを行い、単純な言語トラップに陥ることが示唆されている。
論文 参考訳(メタデータ) (2023-07-28T01:30:15Z) - Unlocking Temporal Question Answering for Large Language Models with Tailor-Made Reasoning Logic [84.59255070520673]
大きな言語モデル(LLM)は、時間的推論に関わる際に課題に直面します。
本研究では,時間的質問応答タスクに特化して設計された新しいフレームワークであるTempLogicを提案する。
論文 参考訳(メタデータ) (2023-05-24T10:57:53Z) - oLMpics -- On what Language Model Pre-training Captures [84.60594612120173]
本研究では,比較,協調,合成などの操作を必要とする8つの推論タスクを提案する。
基本的な課題は、タスク上でのLMのパフォーマンスが、事前訓練された表現やタスクデータの微調整のプロセスに起因すべきかどうかを理解することである。
論文 参考訳(メタデータ) (2019-12-31T12:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。