論文の概要: MenatQA: A New Dataset for Testing the Temporal Comprehension and
Reasoning Abilities of Large Language Models
- arxiv url: http://arxiv.org/abs/2310.05157v1
- Date: Sun, 8 Oct 2023 13:19:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 12:06:10.432544
- Title: MenatQA: A New Dataset for Testing the Temporal Comprehension and
Reasoning Abilities of Large Language Models
- Title(参考訳): MenatQA: 大規模言語モデルの時間的理解と推論能力をテストするための新しいデータセット
- Authors: Yifan Wei, Yisong Su, Huanhuan Ma, Xiaoyan Yu, Fangyu Lei, Yuanzhe
Zhang, Jun Zhao, Kang Liu
- Abstract要約: 大規模言語モデル(LLM)は、多くの自然言語処理(NLP)タスクにおいてほぼ飽和した性能を示している。
本稿では,LLMの時間的理解と推論能力を評価するために,合計2,853個のサンプルを用いた多感性因子時間QA(MenatQA)を構築した。
- 参考スコア(独自算出の注目度): 17.322480769274062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have shown nearly saturated performance on many
natural language processing (NLP) tasks. As a result, it is natural for people
to believe that LLMs have also mastered abilities such as time understanding
and reasoning. However, research on the temporal sensitivity of LLMs has been
insufficiently emphasized. To fill this gap, this paper constructs Multiple
Sensitive Factors Time QA (MenatQA), which encompasses three temporal factors
(scope factor, order factor, counterfactual factor) with total 2,853 samples
for evaluating the time comprehension and reasoning abilities of LLMs. This
paper tests current mainstream LLMs with different parameter sizes, ranging
from billions to hundreds of billions. The results show most LLMs fall behind
smaller temporal reasoning models with different degree on these factors. In
specific, LLMs show a significant vulnerability to temporal biases and depend
heavily on the temporal information provided in questions. Furthermore, this
paper undertakes a preliminary investigation into potential improvement
strategies by devising specific prompts and leveraging external tools. These
approaches serve as valuable baselines or references for future research
endeavors.
- Abstract(参考訳): 大規模言語モデル(LLM)は多くの自然言語処理(NLP)タスクでほぼ飽和性能を示した。
結果として、llmが時間理解や推論といった能力も習得していると考えるのは自然である。
しかし,LLMの時間感度に関する研究は不十分である。
このギャップを埋めるために,LLMの時間的理解と推論能力を評価するために,3つの時間的要因(スコープ係数,オーダーファクタ,ファクトファクトファクトファクタ)を含む多感的因子時間QA(MenatQA)を構築した。
本稿では、数十億から数十億のパラメータサイズで、現在主流のLLMを試験する。
その結果、ほとんどのLSMは、これらの要因の程度が異なる、より小さな時間的推論モデルより遅れていることがわかった。
LLMは時間的バイアスに重大な脆弱性を示し、質問に提供される時間的情報に大きく依存する。
さらに,具体的プロンプトを考案し,外部ツールを活用することにより,潜在的な改善戦略について予備的な検討を行う。
これらのアプローチは、将来の研究努力の基準や参考となる。
関連論文リスト
- Time Series Forecasting with LLMs: Understanding and Enhancing Model
Capabilities [39.874834611685124]
大規模言語モデル(LLM)は近年,急速な発展を遂げた多くの分野に適用されている。
本稿では,LLMがパターンや傾向を明確にした時系列予測に優れるが,周期性に欠けるデータセットでは課題に直面していることを示す。
さらに, 入力戦略について検討し, 外部知識を取り入れ, 自然言語のパラフレーズを取り入れた場合, 時系列におけるLLMの予測性能に肯定的な影響が認められた。
論文 参考訳(メタデータ) (2024-02-16T17:15:28Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - Beyond the Answers: Reviewing the Rationality of Multiple Choice
Question Answering for the Evaluation of Large Language Models [30.674058754196462]
本研究では,大規模言語モデル(LLM)の評価手法として,MCQA(Multiple Choice Question Answering)の合理性を検討する。
この期待とは対照的に,LLM応答の一貫性に顕著な相違が示唆された。
論文 参考訳(メタデータ) (2024-02-02T12:07:00Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - Temporal Blind Spots in Large Language Models [20.631107338678234]
大規模言語モデル(LLM)は、様々な自然言語処理タスクを実行する非並列性のため、最近注目されている。
本研究では,時間的理解を必要とするタスクに対して,汎用LLMの基本的な限界について検討する。
論文 参考訳(メタデータ) (2024-01-22T16:20:14Z) - Towards Robust Temporal Reasoning of Large Language Models via a
Multi-Hop QA Dataset and Pseudo-Instruction Tuning [82.62140347732284]
大規模言語モデル(LLM)には時間的知識の概念を理解することが不可欠である。
本稿では,複数質問応答と複数ホップの時間的推論に焦点をあてた複雑な時間的質問応答データセットであるComplex-TRを提案する。
論文 参考訳(メタデータ) (2023-11-16T11:49:29Z) - Are Large Language Models Temporally Grounded? [38.481606493496514]
文章を記述したLarge Language Model (LLM) を提供する。
イベントの構造と持続時間に関する常識的な知識に関して、それらを調査する。
これらの能力を反映した3つの課題に対して,最先端のLCMを評価した。
論文 参考訳(メタデータ) (2023-11-14T18:57:15Z) - LooGLE: Can Long-Context Language Models Understand Long Contexts? [50.408957515411096]
LooGLEは、大規模言語モデルの長いコンテキスト理解のためのベンチマークである。
2022年以降に比較的新しい文書が登場し、1ドキュメントあたり24,000以上のトークンと、さまざまな領域にまたがる6,000の新たな質問が提供されている。
LooGLEにおける8つの最先端LCMの評価から,重要な所見が得られた。
論文 参考訳(メタデータ) (2023-11-08T01:45:37Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。
26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文 参考訳(メタデータ) (2023-05-24T10:45:25Z) - Prompting Large Language Models for Counterfactual Generation: An
Empirical Study [13.506528217009507]
大規模言語モデル(LLM)は、幅広い自然言語理解と生成タスクにおいて顕著な進歩を遂げている。
本稿では,様々な種類のNLUタスクに対する総合的な評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-24T06:44:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。