Fugu-MT 論文翻訳(概要): MenatQA: A New Dataset for Testing the Temporal Comprehension and Reasoning Abilities of Large Language Models

論文の概要: MenatQA: A New Dataset for Testing the Temporal Comprehension and Reasoning Abilities of Large Language Models

arxiv url: http://arxiv.org/abs/2310.05157v1
Date: Sun, 8 Oct 2023 13:19:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-12 12:06:10.432544
Title: MenatQA: A New Dataset for Testing the Temporal Comprehension and Reasoning Abilities of Large Language Models
Title（参考訳）: MenatQA: 大規模言語モデルの時間的理解と推論能力をテストするための新しいデータセット
Authors: Yifan Wei, Yisong Su, Huanhuan Ma, Xiaoyan Yu, Fangyu Lei, Yuanzhe Zhang, Jun Zhao, Kang Liu
Abstract要約: 大規模言語モデル(LLM)は、多くの自然言語処理(NLP)タスクにおいてほぼ飽和した性能を示している。本稿では,LLMの時間的理解と推論能力を評価するために,合計2,853個のサンプルを用いた多感性因子時間QA(MenatQA)を構築した。
参考スコア（独自算出の注目度）: 17.322480769274062
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have shown nearly saturated performance on many natural language processing (NLP) tasks. As a result, it is natural for people to believe that LLMs have also mastered abilities such as time understanding and reasoning. However, research on the temporal sensitivity of LLMs has been insufficiently emphasized. To fill this gap, this paper constructs Multiple Sensitive Factors Time QA (MenatQA), which encompasses three temporal factors (scope factor, order factor, counterfactual factor) with total 2,853 samples for evaluating the time comprehension and reasoning abilities of LLMs. This paper tests current mainstream LLMs with different parameter sizes, ranging from billions to hundreds of billions. The results show most LLMs fall behind smaller temporal reasoning models with different degree on these factors. In specific, LLMs show a significant vulnerability to temporal biases and depend heavily on the temporal information provided in questions. Furthermore, this paper undertakes a preliminary investigation into potential improvement strategies by devising specific prompts and leveraging external tools. These approaches serve as valuable baselines or references for future research endeavors.
Abstract（参考訳）: 大規模言語モデル(LLM)は多くの自然言語処理(NLP)タスクでほぼ飽和性能を示した。結果として、llmが時間理解や推論といった能力も習得していると考えるのは自然である。しかし,LLMの時間感度に関する研究は不十分である。このギャップを埋めるために,LLMの時間的理解と推論能力を評価するために,3つの時間的要因(スコープ係数,オーダーファクタ,ファクトファクトファクトファクタ)を含む多感的因子時間QA(MenatQA)を構築した。本稿では、数十億から数十億のパラメータサイズで、現在主流のLLMを試験する。その結果、ほとんどのLSMは、これらの要因の程度が異なる、より小さな時間的推論モデルより遅れていることがわかった。 LLMは時間的バイアスに重大な脆弱性を示し、質問に提供される時間的情報に大きく依存する。さらに,具体的プロンプトを考案し,外部ツールを活用することにより,潜在的な改善戦略について予備的な検討を行う。これらのアプローチは、将来の研究努力の基準や参考となる。

関連論文リスト

Reasoning Capabilities and Invariability of Large Language Models [49.23570751696334]
我々は,大規模言語モデルの推論能力に関する総合的な分析を行うことを目標としている。我々は、浅い論理的推論を要求する一連の単純な推論質問を含む新しいベンチマークデータセットを導入する。ゼロショットと少数ショットを含む実証分析では、70億以上のパラメータを持つLDMがゼロショット設定でより優れた性能を発揮する一方で、改善の余地がまだ大きいことが示されている。
論文参考訳（メタデータ） (2025-05-01T18:12:30Z)
Latent Factor Models Meets Instructions: Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文参考訳（メタデータ） (2025-02-21T02:03:08Z)
Position: Empowering Time Series Reasoning with Multimodal LLMs [49.73647759532127]
マルチモーダル言語モデル (MLLM) は時系列解析においてより強力で柔軟な推論を可能にすると論じる。我々は、MLLMにおける信頼、解釈可能性、堅牢な推論を優先する戦略を開発することで、この可能性を活用するよう研究者や実践者に呼びかける。
論文参考訳（メタデータ） (2025-02-03T16:10:48Z)
The LLM Effect: Are Humans Truly Using LLMs, or Are They Being Influenced By Them Instead? [60.01746782465275]
大規模言語モデル(LLM)は、様々な分析タスクにおいて、人間のパフォーマンスに近い能力を示している。本稿では,Human-LLMパートナーシップに着目した構造化ユーザスタディにより,特殊作業におけるLLMの効率と精度について検討する。
論文参考訳（メタデータ） (2024-10-07T02:30:18Z)
Enhancing Temporal Understanding in LLMs for Semi-structured Tables [50.59009084277447]
我々は、大規模言語モデル(LLM)の特定の限界を特定するために、時間的データセットの包括的な分析を行う。調査の結果,時間的時間的質問応答に特化したデータセットであるTempTabQAが強化された。我々は,この領域におけるLLM機能を強化するために,新しいアプローチC.L.E.A.R.を導入する。
論文参考訳（メタデータ） (2024-07-22T20:13:10Z)
A Comprehensive Evaluation of Large Language Models on Temporal Event Forecasting [45.0261082985087]
時間的事象予測のための大規模言語モデル(LLM)を総合的に評価する。 LLMの入力に生テキストを直接統合しても、ゼロショット補間性能は向上しないことがわかった。対照的に、特定の複雑なイベントや微調整LDMに生テキストを組み込むことで、性能が大幅に向上する。
論文参考訳（メタデータ） (2024-07-16T11:58:54Z)
Test of Time: A Benchmark for Evaluating LLMs on Temporal Reasoning [20.066249913943405]
大きな言語モデル(LLM)は驚くべき推論機能を示しているが、エラーの影響を受けやすい。種々のシナリオにおいて,LLMの時間的推論能力を評価するために特別に設計された新しい合成データセットを提案する。本研究は, 時間的推論作業におけるLLMの強度と弱点について, 貴重な知見を提供するものである。
論文参考訳（メタデータ） (2024-06-13T14:31:19Z)
Time Series Forecasting with LLMs: Understanding and Enhancing Model Capabilities [46.02234423159257]
大規模言語モデル(LLM)は多くの分野に適用され、近年急速に発展してきた。近年の研究では、大規模な言語モデルを、さらなる微調整を行なわずに、アンフェロショット時系列推論として扱っている。本研究は,LLMが周期性に欠けるデータセットにおいて,明確なパターンや傾向を持つ時系列予測において良好に機能することを示す。
論文参考訳（メタデータ） (2024-02-16T17:15:28Z)
Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。 LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文参考訳（メタデータ） (2024-02-09T05:37:09Z)
Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文参考訳（メタデータ） (2024-01-30T17:38:54Z)
Temporal Blind Spots in Large Language Models [20.631107338678234]
大規模言語モデル(LLM)は、様々な自然言語処理タスクを実行する非並列性のため、最近注目されている。本研究では,時間的理解を必要とするタスクに対して,汎用LLMの基本的な限界について検討する。
論文参考訳（メタデータ） (2024-01-22T16:20:14Z)
Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文参考訳（メタデータ） (2023-09-20T09:23:46Z)
Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。 26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文参考訳（メタデータ） (2023-05-24T10:45:25Z)
Prompting Large Language Models for Counterfactual Generation: An Empirical Study [13.506528217009507]
大規模言語モデル(LLM)は、幅広い自然言語理解と生成タスクにおいて顕著な進歩を遂げている。本稿では,様々な種類のNLUタスクに対する総合的な評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-05-24T06:44:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。