論文の概要: Temporal Blind Spots in Large Language Models
- arxiv url: http://arxiv.org/abs/2401.12078v1
- Date: Mon, 22 Jan 2024 16:20:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 13:24:21.220316
- Title: Temporal Blind Spots in Large Language Models
- Title(参考訳): 大規模言語モデルにおける時間的盲点
- Authors: Jonas Wallat, Adam Jatowt, Avishek Anand
- Abstract要約: 大規模言語モデル(LLM)は、様々な自然言語処理タスクを実行する非並列性のため、最近注目されている。
本研究では,時間的理解を必要とするタスクに対して,汎用LLMの基本的な限界について検討する。
- 参考スコア(独自算出の注目度): 20.631107338678234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have recently gained significant attention due
to their unparalleled ability to perform various natural language processing
tasks. These models, benefiting from their advanced natural language
understanding capabilities, have demonstrated impressive zero-shot performance.
However, the pre-training data utilized in LLMs is often confined to a specific
corpus, resulting in inherent freshness and temporal scope limitations.
Consequently, this raises concerns regarding the effectiveness of LLMs for
tasks involving temporal intents. In this study, we aim to investigate the
underlying limitations of general-purpose LLMs when deployed for tasks that
require a temporal understanding. We pay particular attention to handling
factual temporal knowledge through three popular temporal QA datasets.
Specifically, we observe low performance on detailed questions about the past
and, surprisingly, for rather new information. In manual and automatic testing,
we find multiple temporal errors and characterize the conditions under which QA
performance deteriorates. Our analysis contributes to understanding LLM
limitations and offers valuable insights into developing future models that can
better cater to the demands of temporally-oriented tasks. The code is
available\footnote{https://github.com/jwallat/temporalblindspots}.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な自然言語処理タスクを実行する非並列性のため、最近注目されている。
これらのモデルは、高度な自然言語理解能力の恩恵を受け、印象的なゼロショット性能を示している。
しかしながら、llmsで使用される事前トレーニングデータは、しばしば特定のコーパスに制限されるため、固有の鮮度と時間的スコープの制限が生じる。
これにより、時間的意図を含むタスクに対するLLMの有効性に関する懸念が高まる。
本研究では,時間的理解を必要とするタスクに対して,汎用LLMの基本的な限界について検討する。
我々は3つの一般的な時間的QAデータセットを通して、事実的時間的知識を扱うことに特に注意を払う。
具体的には、過去に関する詳細な質問に対して低いパフォーマンスを観察し、意外なことに、かなり新しい情報を求めています。
手動および自動テストでは、複数の時間誤差を見つけ、QA性能が低下する条件を特徴付ける。
我々の分析は、LLMの限界を理解することに寄与し、時間的指向タスクの要求により適応できる将来のモデル開発に関する貴重な洞察を提供する。
コードは"footnote{https://github.com/jwallat/temporalblindspots}"である。
関連論文リスト
- Enhancing Temporal Understanding in LLMs for Semi-structured Tables [50.59009084277447]
我々は、大規模言語モデル(LLM)の特定の限界を特定するために、時間的データセットの包括的な分析を行う。
調査の結果,時間的時間的質問応答に特化したデータセットであるTempTabQAが強化された。
我々は,この領域におけるLLM機能を強化するために,新しいアプローチC.L.E.A.R.を導入する。
論文 参考訳(メタデータ) (2024-07-22T20:13:10Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - STBench: Assessing the Ability of Large Language Models in Spatio-Temporal Analysis [12.582867572800488]
大規模言語モデル(LLM)は、大規模言語モデルの急速な急速な進化の方法論を改革することを約束している。
本稿では、ベンチマークデータセットSTBenchを構築し、13の異なる計算タスクと6万以上のQAペアを含む。
実験結果から,既存のLLMは知識理解と時間差推論に顕著な性能を示した。
論文 参考訳(メタデータ) (2024-06-27T10:34:02Z) - Test of Time: A Benchmark for Evaluating LLMs on Temporal Reasoning [20.066249913943405]
大きな言語モデル(LLM)は驚くべき推論機能を示しているが、エラーの影響を受けやすい。
種々のシナリオにおいて,LLMの時間的推論能力を評価するために特別に設計された新しい合成データセットを提案する。
本研究は, 時間的推論作業におけるLLMの強度と弱点について, 貴重な知見を提供するものである。
論文 参考訳(メタデータ) (2024-06-13T14:31:19Z) - Guiding LLM Temporal Logic Generation with Explicit Separation of Data and Control [0.7580487359358722]
時間論理は、反応系の合成と検証に広く使われている強力なツールである。
大規模言語モデルに関する最近の進歩は、そのような仕様を書くプロセスをよりアクセスしやすいものにする可能性がある。
論文 参考訳(メタデータ) (2024-06-11T16:07:24Z) - Prompting Large Language Models with Knowledge Graphs for Question Answering Involving Long-tail Facts [50.06633829833144]
大規模言語モデル(LLM)は、様々なNLPタスクを実行するのに効果的であるが、広範囲の現実世界の知識を必要とするタスクを扱うのに苦労する。
我々は,関連する疑問に答えるために,長期的事実の知識を必要とするベンチマークを提案する。
実験の結果,LLMだけでこれらの疑問に答えるのに苦労していることが明らかとなった。
論文 参考訳(メタデータ) (2024-05-10T15:10:20Z) - The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。
LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。
以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T19:07:32Z) - Time Series Forecasting with LLMs: Understanding and Enhancing Model Capabilities [46.02234423159257]
大規模言語モデル(LLM)は多くの分野に適用され、近年急速に発展してきた。
近年の研究では、大規模な言語モデルを、さらなる微調整を行なわずに、アンフェロショット時系列推論として扱っている。
本研究は,LLMが周期性に欠けるデータセットにおいて,明確なパターンや傾向を持つ時系列予測において良好に機能することを示す。
論文 参考訳(メタデータ) (2024-02-16T17:15:28Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - MenatQA: A New Dataset for Testing the Temporal Comprehension and
Reasoning Abilities of Large Language Models [17.322480769274062]
大規模言語モデル(LLM)は、多くの自然言語処理(NLP)タスクにおいてほぼ飽和した性能を示している。
本稿では,LLMの時間的理解と推論能力を評価するために,合計2,853個のサンプルを用いた多感性因子時間QA(MenatQA)を構築した。
論文 参考訳(メタデータ) (2023-10-08T13:19:52Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。