Fugu-MT 論文翻訳(概要): ChronoSense: Exploring Temporal Understanding in Large Language Models with Time Intervals of Events

論文の概要: ChronoSense: Exploring Temporal Understanding in Large Language Models with Time Intervals of Events

arxiv url: http://arxiv.org/abs/2501.03040v1
Date: Mon, 06 Jan 2025 14:27:41 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-07 16:36:52.19051
Title: ChronoSense: Exploring Temporal Understanding in Large Language Models with Time Intervals of Events
Title（参考訳）: ChronoSense:イベントの時間間隔を持つ大規模言語モデルにおける時間的理解を探る
Authors: Duygu Sezen Islakoglu, Jan-Christoph Kalo,
Abstract要約: 我々はChronoSenseについて紹介する。ChronoSenseは大規模言語モデルの時間的理解を評価するための新しいベンチマークである。このベンチマークを用いて7つのLLMの性能評価を行い, モデルがアレン関係, 対称関係であっても, 全く異なる扱いをすることを示した。全体として、モデルの性能の低さは、LLMにおける時間的理解の改善の必要性を強調している。
参考スコア（独自算出の注目度）: 0.20132569095596248
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have achieved remarkable success in various NLP tasks, yet they still face significant challenges in reasoning and arithmetic. Temporal reasoning, a critical component of natural language understanding, has raised increasing research attention. However, comprehensive testing of Allen's interval relations (e.g., before, after, during) -- a fundamental framework for temporal relationships -- remains underexplored. To fill this gap, we present ChronoSense, a new benchmark for evaluating LLMs' temporal understanding. It includes 16 tasks, focusing on identifying the Allen relation between two temporal events and temporal arithmetic, using both abstract events and real-world data from Wikidata. We assess the performance of seven recent LLMs using this benchmark and the results indicate that models handle Allen relations, even symmetrical ones, quite differently. Moreover, the findings suggest that the models may rely on memorization to answer time-related questions. Overall, the models' low performance highlights the need for improved temporal understanding in LLMs and ChronoSense offers a robust framework for future research in this area. Our dataset and the source code are available at https://github.com/duyguislakoglu/chronosense.
Abstract（参考訳）: 大規模言語モデル(LLM)は様々なNLPタスクにおいて顕著な成功を収めてきたが、推論や算術において大きな課題に直面している。自然言語理解の重要な要素である時間的推論は、研究の注目を集めている。しかしながら、時間的関係の基本的なフレームワークであるアレンの区間関係(例えば、前、後、中)の包括的なテストは、まだ未定である。このギャップを埋めるために、LLMの時間的理解を評価するための新しいベンチマークであるChronoSenseを紹介する。これには16のタスクが含まれており、2つの時間的事象と時間的算術の間のアレンの関係をウィキデータからの抽象的な出来事と実世界のデータの両方を用いて識別することに焦点を当てている。このベンチマークを用いて7つのLLMの性能評価を行い, モデルがアレン関係, 対称関係であっても, 全く異なる扱いをすることを示した。さらに,これらのモデルでは,時間に関する疑問に答えるために,暗記に依存する可能性が示唆された。全体として、モデルの低パフォーマンスはLLMにおける時間的理解の改善の必要性を強調しており、ChronoSenseはこの領域における将来の研究のための堅牢なフレームワークを提供する。私たちのデータセットとソースコードはhttps://github.com/duyguislakoglu/chronosense.comで公開されています。

関連論文リスト

Deep Temporal Reasoning in Video Language Models: A Cross-Linguistic Evaluation of Action Duration and Completion through Perfect Times [0.0]
時間的推論に基づいてビデオ言語モデル(VLM)を評価するために設計された,4次的(英語,イタリア語,ロシア語,日本語)な質問応答ベンチマークである textbfPerfect Times データセットを紹介した。実験結果から、現状のモデルは、テキストベースのタスクで成功したにも拘わらず、ビデオに根ざした時間的・因果的推論の反映に苦慮していることが明らかとなった。
論文参考訳（メタデータ） (2025-06-01T09:45:41Z)
On the Temporal Question-Answering Capabilities of Large Language Models Over Anonymized Data [1.2979906794584584]
訓練中に存在しないデータに対する時間的推論タスクにおけるLarge Language Model(LLM)の適用性はまだ検討されていない分野である。本稿では、構造化および半構造化された匿名化データに焦点をあてて、このトピックについて論じる。自然言語における17の共通時間的推論タスクを特定し,そのアルゴリズム的構成要素に着目した。
論文参考訳（メタデータ） (2025-04-10T10:48:42Z)
Learning to Reason Over Time: Timeline Self-Reflection for Improved Temporal Reasoning in Language Models [21.579319926212296]
大規模言語モデル(LLM)は、一貫性のあるテキストを生成し、コンテキストを理解し、推論タスクを実行するための強力なツールとして登場した。彼らは時間的推論に苦しむが、それはイベントシーケンシングや時間的関係、時間的関係などの時間的関連情報を処理する必要がある。我々は,タイムライン構築と反復的自己回帰を組み合わせた多段階プロセスを通じて,LLMの時間的推論能力を高める新しいフレームワークであるTISERを紹介する。
論文参考訳（メタデータ） (2025-04-07T16:51:45Z)
If an LLM Were a Character, Would It Know Its Own Story? Evaluating Lifelong Learning in LLMs [55.8331366739144]
大規模言語モデル(LLM)における生涯学習評価のためのベンチマークであるLIFESTATE-BENCHを紹介する。我々の事実チェック評価は、パラメトリックと非パラメトリックの両方のアプローチで、モデルの自己認識、エピソードメモリ検索、関係追跡を探索する。
論文参考訳（メタデータ） (2025-03-30T16:50:57Z)
Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文参考訳（メタデータ） (2024-10-24T17:56:08Z)
STBench: Assessing the Ability of Large Language Models in Spatio-Temporal Analysis [12.582867572800488]
大規模言語モデル(LLM)は、大規模言語モデルの急速な急速な進化の方法論を改革することを約束している。本稿では、ベンチマークデータセットSTBenchを構築し、13の異なる計算タスクと6万以上のQAペアを含む。実験結果から,既存のLLMは知識理解と時間差推論に顕著な性能を示した。
論文参考訳（メタデータ） (2024-06-27T10:34:02Z)
Living in the Moment: Can Large Language Models Grasp Co-Temporal Reasoning? [70.19200858203388]
時間的推論は、世界を理解するための大きな言語モデルの基本である。 CoTempQAは4つの時間的シナリオを含むベンチマークである。実験の結果,LLMの性能と人間レベルの推論との間に大きなギャップがあることが判明した。
論文参考訳（メタデータ） (2024-06-13T12:56:21Z)
Analyzing Temporal Complex Events with Large Language Models? A Benchmark towards Temporal, Long Context Understanding [57.62275091656578]
時間的複合イベント(TCE)として、長い期間にわたって多くのニュース記事から構成される複合イベントについて述べる。本稿では,Large Language Models (LLMs) を用いて,TCE内のイベントチェーンを系統的に抽出し,解析する手法を提案する。
論文参考訳（メタデータ） (2024-06-04T16:42:17Z)
Temporal Blind Spots in Large Language Models [20.631107338678234]
大規模言語モデル(LLM)は、様々な自然言語処理タスクを実行する非並列性のため、最近注目されている。本研究では,時間的理解を必要とするタスクに対して,汎用LLMの基本的な限界について検討する。
論文参考訳（メタデータ） (2024-01-22T16:20:14Z)
GATGPT: A Pre-trained Large Language Model with Graph Attention Network for Spatiotemporal Imputation [19.371155159744934]
実世界の環境では、センサーの故障やデータ転送エラーなどの問題により、そのようなデータには欠落する要素がしばしば含まれる。時間的計算の目的は、観測された時系列における固有の空間的および時間的関係を理解することによって、これらの欠落値を推定することである。伝統的に、複雑な時間的計算は特定のアーキテクチャに依存しており、適用可能性の制限と高い計算複雑性に悩まされている。対照的に、我々のアプローチは、事前訓練された大規模言語モデル(LLM)を複雑な時間的インプットに統合し、画期的なフレームワークであるGATGPTを導入している。
論文参考訳（メタデータ） (2023-11-24T08:15:11Z)
Towards Robust Temporal Reasoning of Large Language Models via a Multi-Hop QA Dataset and Pseudo-Instruction Tuning [73.51314109184197]
大規模言語モデル(LLM)には時間的知識の概念を理解することが不可欠である。本稿では,複数質問応答と複数ホップの時間的推論に焦点をあてた複雑な時間的質問応答データセットであるComplex-TRを提案する。
論文参考訳（メタデータ） (2023-11-16T11:49:29Z)
TRAM: Benchmarking Temporal Reasoning for Large Language Models [12.112914393948415]
10個のデータセットからなる時間的推論ベンチマークであるTRAMを紹介する。 GPT-4やLlama2のような一般的な言語モデルをゼロショットや少数ショットのシナリオで評価する。以上の結果から,最も優れたモデルラグは人的パフォーマンスに大きく遅れていることが示唆された。
論文参考訳（メタデータ） (2023-10-02T00:59:07Z)
Unlocking Temporal Question Answering for Large Language Models with Tailor-Made Reasoning Logic [84.59255070520673]
大きな言語モデル(LLM)は、時間的推論に関わる際に課題に直面します。本研究では,時間的質問応答タスクに特化して設計された新しいフレームワークであるTempLogicを提案する。
論文参考訳（メタデータ） (2023-05-24T10:57:53Z)
Temporal Relevance Analysis for Video Action Models [70.39411261685963]
まず,CNNに基づく行動モデルにより捉えたフレーム間の時間的関係を定量化する手法を提案する。次に、時間的モデリングがどのように影響を受けるかをよりよく理解するために、包括的な実験と詳細な分析を行います。
論文参考訳（メタデータ） (2022-04-25T19:06:48Z)
TIMEDIAL: Temporal Commonsense Reasoning in Dialog [43.24596551545824]
本稿では,対話における時間的推論能力について,事前学習した言語モデルについて検討する。我々は、TIME-DIALを1.1K以上の精巧なダイアログで複数選択のクローゼタスクとして定式化する。実証的な結果は、最高のパフォーマンスモデルでさえ、人間よりもこのタスクに苦労していることを示している。
論文参考訳（メタデータ） (2021-06-08T17:59:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。