論文の概要: Narrative-of-Thought: Improving Temporal Reasoning of Large Language Models via Recounted Narratives
- arxiv url: http://arxiv.org/abs/2410.05558v2
- Date: Sun, 17 Nov 2024 17:00:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:31:06.871409
- Title: Narrative-of-Thought: Improving Temporal Reasoning of Large Language Models via Recounted Narratives
- Title(参考訳): ナラティブ・オブ・ワウト:引用ナラティブによる大規模言語モデルの時間的推論の改善
- Authors: Xinliang Frederick Zhang, Nick Beauchamp, Lu Wang,
- Abstract要約: 時間的推論において重要な課題である時間的グラフ生成について検討する。
この課題は,最も強力な言語モデルにおいても大きな課題となる。
本稿では,時間的推論,Narrative-of-Thoughtに適した新しいプロンプト手法を提案する。
- 参考スコア(独自算出の注目度): 6.631626634132574
- License:
- Abstract: Reasoning about time and temporal relations is an integral aspect of human cognition, essential for perceiving the world and navigating our experiences. Though large language models (LLMs) have demonstrated impressive performance in many reasoning tasks, temporal reasoning remains challenging due to its intrinsic complexity. In this work, we first study an essential task of temporal reasoning -- temporal graph generation, to unveil LLMs' inherent, global reasoning capabilities. We show that this task presents great challenges even for the most powerful LLMs, such as GPT-3.5/4. We also notice a significant performance gap by small models (<10B) that lag behind LLMs by 50%. Next, we study how to close this gap with a budget constraint, e.g., not using model finetuning. We propose a new prompting technique tailored for temporal reasoning, Narrative-of-Thought (NoT), that first converts the events set to a Python class, then prompts a small model to generate a temporally grounded narrative, guiding the final generation of a temporal graph. Extensive experiments showcase the efficacy of NoT in improving various metrics. Notably, NoT attains the highest F1 on the Schema-11 evaluation set, while securing an overall F1 on par with GPT-3.5. NoT also achieves the best structural similarity across the board, even compared with GPT-3.5/4. Our code is available at https://github.com/launchnlp/NoT.
- Abstract(参考訳): 時間と時間的関係についての推論は、人間の認知の不可欠な側面であり、世界を知覚し、経験をナビゲートするのに不可欠である。
大規模言語モデル(LLM)は多くの推論タスクにおいて顕著な性能を示したが、その固有の複雑さのために時間的推論は難しいままである。
本研究ではまず,LLMの本質的,グローバルな推論能力を明らかにするために,時間的推論(時間的グラフ生成)の本質的な課題について検討する。
この課題は, GPT-3.5/4 など, 最強の LLM においても大きな課題となる。
また,LLMを50%遅れる小モデル(10B)による性能差も顕著であった。
次に,モデル微調整を使わずに,予算制約,例えば,このギャップを埋める方法について検討する。
時間的推論に適した新しいプロンプト手法であるNarrative-of-Thought(NoT)を提案し、まず最初にPythonクラスに設定したイベントを変換し、その後、小さなモデルに時間的基底の物語を生成するように促し、時間的グラフの最終的な生成を導く。
大規模な実験では、様々な指標を改善するためのNoTの有効性が示されている。
特にNoTは、Schema-11評価セットで最高F1を獲得し、全体的なF1をGPT-3.5と同等に確保している。
NoTはまた、GPT-3.5/4と比較しても、ボード全体で最高の構造的類似性を実現している。
私たちのコードはhttps://github.com/ Launchnlp/NoT.comで利用可能です。
関連論文リスト
- Failure Modes of LLMs for Causal Reasoning on Narratives [51.19592551510628]
本研究では,大言語モデル(LLM)の因果推論能力について,物語から因果関係を推定する代表的な問題から検討する。
最新の言語モデルでさえ、物語の提示とパラメトリック知識の両方において、信頼できないショートカットに依存していることがわかった。
論文 参考訳(メタデータ) (2024-10-31T12:48:58Z) - Timo: Towards Better Temporal Reasoning for Language Models [38.27548375148604]
時間に関する推論は、大言語モデルが世界を理解するために不可欠である。
私たちは、様々な時間的推論タスクを扱う普遍的なフレームワークを構築します。
時間的推論を 7B と 13B スケールで最適化するモデルである Timo を開発した。
論文 参考訳(メタデータ) (2024-06-20T10:52:14Z) - Investigating Video Reasoning Capability of Large Language Models with Tropes in Movies [69.28082193942991]
本稿では、これまで見過ごされていた2つの重要なビデオ推論スキルを探索するためのテストベッドとして設計された、新しいデータセットであるTropes in Movies (TiM)を紹介する。
映画ストーリーテリングのトポロジを利用して、TiMは最先端のLCMベースのアプローチの推論能力を評価する。
これらの欠陥に対処するために、FEVoRI(Face-Enhanced Viper of Role Interactions)とConQueR(Context Query Reduction)を提案する。
論文 参考訳(メタデータ) (2024-06-16T12:58:31Z) - Living in the Moment: Can Large Language Models Grasp Co-Temporal Reasoning? [70.19200858203388]
時間的推論は、世界を理解するための大きな言語モデルの基本である。
CoTempQAは4つの時間的シナリオを含むベンチマークである。
実験の結果,LLMの性能と人間レベルの推論との間に大きなギャップがあることが判明した。
論文 参考訳(メタデータ) (2024-06-13T12:56:21Z) - Large Language Models Can Learn Temporal Reasoning [11.599570446840547]
本稿では,言語に基づく時間的推論のための新しいフレームワークTG-LLMを提案する。
元の文脈を推論する代わりに、潜時表現、時間グラフ(TG)を採用する。
合成データセット(TGQA)は完全に制御可能であり、最小限の監督を必要とする。
論文 参考訳(メタデータ) (2024-01-12T19:00:26Z) - TRAM: Benchmarking Temporal Reasoning for Large Language Models [12.112914393948415]
10個のデータセットからなる時間的推論ベンチマークであるTRAMを紹介する。
GPT-4やLlama2のような一般的な言語モデルをゼロショットや少数ショットのシナリオで評価する。
以上の結果から,最も優れたモデルラグは人的パフォーマンスに大きく遅れていることが示唆された。
論文 参考訳(メタデータ) (2023-10-02T00:59:07Z) - Reason for Future, Act for Now: A Principled Framework for Autonomous
LLM Agents with Provable Sample Efficiency [53.8779374188643]
本稿では,推論と行動のオーケストレーションを行うための,証明可能な後悔の保証を備えた原則的枠組みを提案する。
具体的には、メモリバッファから学習する推論のためのプロンプトテンプレートを設計し、長い水平線上で将来の軌道を計画する。
各ステップにおいて、LLMエージェントは計画された軌跡の初期動作("act for now")を受け取り、収集したフィードバックをメモリバッファに格納し、推論ルーチンを再起動して、将来の軌跡を新しい状態から再設計する。
論文 参考訳(メタデータ) (2023-09-29T16:36:39Z) - Generic Temporal Reasoning with Differential Analysis and Explanation [61.96034987217583]
時間差分解析でギャップを埋めるTODAYという新しいタスクを導入する。
TODAYは、システムがインクリメンタルな変化の効果を正しく理解できるかどうかを評価する。
共同学習においてTODAYの指導スタイルと説明アノテーションが有効であることを示す。
論文 参考訳(メタデータ) (2022-12-20T17:40:03Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - TIMEDIAL: Temporal Commonsense Reasoning in Dialog [43.24596551545824]
本稿では,対話における時間的推論能力について,事前学習した言語モデルについて検討する。
我々は、TIME-DIALを1.1K以上の精巧なダイアログで複数選択のクローゼタスクとして定式化する。
実証的な結果は、最高のパフォーマンスモデルでさえ、人間よりもこのタスクに苦労していることを示している。
論文 参考訳(メタデータ) (2021-06-08T17:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。