Fugu-MT 論文翻訳(概要): Towards Benchmarking and Improving the Temporal Reasoning Capability of Large Language Models

論文の概要: Towards Benchmarking and Improving the Temporal Reasoning Capability of Large Language Models

arxiv url: http://arxiv.org/abs/2306.08952v2
Date: Tue, 27 Jun 2023 05:39:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-28 16:27:56.419588
Title: Towards Benchmarking and Improving the Temporal Reasoning Capability of Large Language Models
Title（参考訳）: 大規模言語モデルの時間推論能力のベンチマークと改善に向けて
Authors: Qingyu Tan, Hwee Tou Ng, Lidong Bing
Abstract要約: 本研究では,大規模言語モデルの時間的推論能力を評価するために,総合的な探索データセットテンプレートを導入する。我々のデータセットには3つの時間的推論レベルに関する質問が含まれている。また,大規模言語モデルの時間的推論能力を向上させるための新しい学習フレームワークを提案する。
参考スコア（独自算出の注目度）: 44.670550143705746
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reasoning about time is of fundamental importance. Many facts are time-dependent. For example, athletes change teams from time to time, and different government officials are elected periodically. Previous time-dependent question answering (QA) datasets tend to be biased in either their coverage of time spans or question types. In this paper, we introduce a comprehensive probing dataset \tempreason to evaluate the temporal reasoning capability of large language models. Our dataset includes questions of three temporal reasoning levels. In addition, we also propose a novel learning framework to improve the temporal reasoning capability of large language models, based on temporal span extraction and time-sensitive reinforcement learning. We conducted experiments in closed book QA, open book QA, and reasoning QA settings and demonstrated the effectiveness of our approach. Our code and data are released on https://github.com/DAMO-NLP-SG/TempReason.
Abstract（参考訳）: 時間に関する推論は、基本的に重要です。多くの事実は時間に依存します。例えば、選手は時々チームを変え、異なる政府機関が定期的に選出される。以前の時間依存質問応答(QA)データセットは、時間範囲のカバレッジか質問タイプに偏っている傾向があります。本稿では,大規模言語モデルの時間的推論能力を評価するために,包括的探索データセット \tempreason を提案する。我々のデータセットには3つの時間的推論レベルに関する質問が含まれている。さらに,時空間抽出と時間依存性強化学習に基づいて,大規模言語モデルの時間的推論能力を向上させるための新しい学習フレームワークを提案する。我々は,クローズドブックQA,オープンブックQA,およびQA設定の推論実験を行い,本手法の有効性を実証した。私たちのコードとデータはhttps://github.com/DAMO-NLP-SG/TempReason.comで公開されています。

関連論文リスト

Evaluating List Construction and Temporal Understanding capabilities of Large Language Models [54.39278049092508]
大規模言語モデル(LLM)は、特に時間的理解タスクにおける幻覚や誤りの影響を受けやすい。本稿では,時系列に適合するリスト形式で構造化された回答を必要とするTLQA(Time Referenceed List based Question Answering)ベンチマークを提案する。閉書およびオープンドメイン設定におけるTLQA上の最先端生成モデルの時間的理解とリスト構築能力について検討する。
論文参考訳（メタデータ） (2025-06-26T21:40:58Z)
It's High Time: A Survey of Temporal Question Answering [17.07150094603319]
TQA(Temporal Question Answering)は、時間的制約や文脈に関する質問に答えることに焦点を当てている。ニューラルモデルと大規模言語モデル(LLM)によるTQAの最近の進歩時間的堅牢性、傾向認識、一般化をテストするために設計されたベンチマークデータセットと評価戦略。
論文参考訳（メタデータ） (2025-05-26T17:21:26Z)
Chat-TS: Enhancing Multi-Modal Reasoning Over Time-Series and Natural Language Data [22.274663165215237]
時系列分析は、医療、金融、交通、エネルギーなど幅広い分野において重要である。現在の時系列モデルは、時系列とテキストコンテンツの両方を含む推論を行う能力に制限がある。 Chat-TSは時系列トークンをLLMの語彙に統合し、両方のモダリティに対する推論能力を高める。
論文参考訳（メタデータ） (2025-03-13T21:05:11Z)
Time-MQA: Time Series Multi-Task Question Answering with Context Enhancement [55.2439260314328]
Time Series Multi-Task Question Answering (Time-MQA)は、複数の時系列タスクにわたる自然言語クエリを可能にする統合フレームワークである。 Time-MQAの中心はTSQAデータセットである。
論文参考訳（メタデータ） (2025-02-26T13:47:13Z)
DateLogicQA: Benchmarking Temporal Biases in Large Language Models [0.0]
本稿では,DateLogicQAについて紹介する。DateLogicQAは190の質問で,様々な日付形式,時間的文脈,推論型について紹介する。本稿では,セマンティック・インテリティ・メトリック(Semantic Integrity Metric)を提案し,トークン化の品質を評価し,表現レベルバイアス(Representation-Level Bias)と論理レベルバイアス(Logical-Level Bias)の2つのバイアスを分析する。
論文参考訳（メタデータ） (2024-12-17T23:25:47Z)
Time Awareness in Large Language Models: Benchmarking Fact Recall Across Time [0.0]
我々は、時間に敏感な事実を扱う大規模言語モデルの能力を厳格にテストするために設計された新しいデータセットを導入する。我々のベンチマークは、LLMが自身の知識を正しい時間文脈とどのように一致させるかを測定するための体系的な方法を提供する。
論文参考訳（メタデータ） (2024-09-20T08:57:20Z)
Living in the Moment: Can Large Language Models Grasp Co-Temporal Reasoning? [70.19200858203388]
時間的推論は、世界を理解するための大きな言語モデルの基本である。 CoTempQAは4つの時間的シナリオを含むベンチマークである。実験の結果,LLMの性能と人間レベルの推論との間に大きなギャップがあることが判明した。
論文参考訳（メタデータ） (2024-06-13T12:56:21Z)
Language Models Still Struggle to Zero-shot Reason about Time Series [11.764833497297493]
時系列は金融や医療といった分野における意思決定に不可欠だ。非自明な予測が言語モデルが時系列について推論できることを示すかどうかは不明である。時系列推論のための一級評価フレームワークを生成する。
論文参考訳（メタデータ） (2024-04-17T21:27:33Z)
Towards Robust Temporal Reasoning of Large Language Models via a Multi-Hop QA Dataset and Pseudo-Instruction Tuning [73.51314109184197]
大規模言語モデル(LLM)には時間的知識の概念を理解することが不可欠である。本稿では,複数質問応答と複数ホップの時間的推論に焦点をあてた複雑な時間的質問応答データセットであるComplex-TRを提案する。
論文参考訳（メタデータ） (2023-11-16T11:49:29Z)
Time-Aware Representation Learning for Time-Sensitive Question Answering [19.822549681087107]
本稿では,TCQA(Time-Context aware Question Answering)フレームワークを提案する。モデルトレーニングのための時間コンテキスト依存型データ生成フレームワークを構築します。本稿では,QAモデルの時間的意識を評価する指標を提案する。
論文参考訳（メタデータ） (2023-10-19T08:48:45Z)
A Benchmark for Generalizable and Interpretable Temporal Question Answering over Knowledge Bases [67.33560134350427]
TempQA-WDは時間的推論のためのベンチマークデータセットである。 Wikidataは、最も頻繁にキュレーションされ、公開されている知識ベースである。
論文参考訳（メタデータ） (2022-01-15T08:49:09Z)
A Dataset for Answering Time-Sensitive Questions [88.95075983560331]
時間とは、我々の物理的世界において重要な次元である。多くの事実が時間に関して進化することができる。時間次元を考慮し、既存のQAモデルに時間とともに推論する権限を与えることが重要です。既存のQAデータセットには、時間に敏感な質問がほとんどないため、モデルの時間的推論能力の診断やベンチマークには適さない。
論文参考訳（メタデータ） (2021-08-13T16:42:25Z)
NExT-QA:Next Phase of Question-Answering to Explaining Temporal Actions [80.60423934589515]
NExT-QAは、厳密に設計されたビデオ質問回答(VideoQA)ベンチマークです。因果的行動推論,時間的行動推論,共通場面理解を対象とする複数選択およびオープンエンドQAタスクを構築した。トップパフォーマンスの手法は浅い場面記述に優れているが、因果的および時間的行動推論に弱い。
論文参考訳（メタデータ） (2021-05-18T04:56:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。