論文の概要: Temporal Blind Spots in Large Language Models
- arxiv url: http://arxiv.org/abs/2401.12078v1
- Date: Mon, 22 Jan 2024 16:20:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 13:24:21.220316
- Title: Temporal Blind Spots in Large Language Models
- Title(参考訳): 大規模言語モデルにおける時間的盲点
- Authors: Jonas Wallat, Adam Jatowt, Avishek Anand
- Abstract要約: 大規模言語モデル(LLM)は、様々な自然言語処理タスクを実行する非並列性のため、最近注目されている。
本研究では,時間的理解を必要とするタスクに対して,汎用LLMの基本的な限界について検討する。
- 参考スコア(独自算出の注目度): 20.631107338678234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have recently gained significant attention due
to their unparalleled ability to perform various natural language processing
tasks. These models, benefiting from their advanced natural language
understanding capabilities, have demonstrated impressive zero-shot performance.
However, the pre-training data utilized in LLMs is often confined to a specific
corpus, resulting in inherent freshness and temporal scope limitations.
Consequently, this raises concerns regarding the effectiveness of LLMs for
tasks involving temporal intents. In this study, we aim to investigate the
underlying limitations of general-purpose LLMs when deployed for tasks that
require a temporal understanding. We pay particular attention to handling
factual temporal knowledge through three popular temporal QA datasets.
Specifically, we observe low performance on detailed questions about the past
and, surprisingly, for rather new information. In manual and automatic testing,
we find multiple temporal errors and characterize the conditions under which QA
performance deteriorates. Our analysis contributes to understanding LLM
limitations and offers valuable insights into developing future models that can
better cater to the demands of temporally-oriented tasks. The code is
available\footnote{https://github.com/jwallat/temporalblindspots}.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な自然言語処理タスクを実行する非並列性のため、最近注目されている。
これらのモデルは、高度な自然言語理解能力の恩恵を受け、印象的なゼロショット性能を示している。
しかしながら、llmsで使用される事前トレーニングデータは、しばしば特定のコーパスに制限されるため、固有の鮮度と時間的スコープの制限が生じる。
これにより、時間的意図を含むタスクに対するLLMの有効性に関する懸念が高まる。
本研究では,時間的理解を必要とするタスクに対して,汎用LLMの基本的な限界について検討する。
我々は3つの一般的な時間的QAデータセットを通して、事実的時間的知識を扱うことに特に注意を払う。
具体的には、過去に関する詳細な質問に対して低いパフォーマンスを観察し、意外なことに、かなり新しい情報を求めています。
手動および自動テストでは、複数の時間誤差を見つけ、QA性能が低下する条件を特徴付ける。
我々の分析は、LLMの限界を理解することに寄与し、時間的指向タスクの要求により適応できる将来のモデル開発に関する貴重な洞察を提供する。
コードは"footnote{https://github.com/jwallat/temporalblindspots}"である。
関連論文リスト
- Time Series Forecasting with LLMs: Understanding and Enhancing Model
Capabilities [39.874834611685124]
大規模言語モデル(LLM)は近年,急速な発展を遂げた多くの分野に適用されている。
本稿では,LLMがパターンや傾向を明確にした時系列予測に優れるが,周期性に欠けるデータセットでは課題に直面していることを示す。
さらに, 入力戦略について検討し, 外部知識を取り入れ, 自然言語のパラフレーズを取り入れた場合, 時系列におけるLLMの予測性能に肯定的な影響が認められた。
論文 参考訳(メタデータ) (2024-02-16T17:15:28Z) - Unmemorization in Large Language Models via Self-Distillation and
Deliberate Imagination [58.36408867180233]
大規模言語モデル(LLM)は、プライバシー侵害や機密データの不要な露出といった重要な問題に苦慮している。
我々は、LLMアンラーニングの文脈において、意図的な想像力という新しいアプローチを導入する。
本研究は,異なるモデルとサイズにまたがるこのアプローチの有用性を示し,パラメータ効率の良い微調整を行った。
論文 参考訳(メタデータ) (2024-02-15T16:21:14Z) - Temporal Insight Enhancement: Mitigating Temporal Hallucination in
Multimodal Large Language Models [20.33971942003996]
本研究では,MLLMにおける事象レベルの幻覚に対処する革新的な手法を提案する。
オンデマンドイベントクエリをアイコンアクションに分解するユニークなメカニズムを提案する。
イベント発生の特定のタイムスタンプを予測するために、CLIPやBLIP2といったモデルを採用しています。
論文 参考訳(メタデータ) (2024-01-18T10:18:48Z) - Towards Robust Temporal Reasoning of Large Language Models via a
Multi-Hop QA Dataset and Pseudo-Instruction Tuning [82.62140347732284]
大規模言語モデル(LLM)には時間的知識の概念を理解することが不可欠である。
本稿では,複数質問応答と複数ホップの時間的推論に焦点をあてた複雑な時間的質問応答データセットであるComplex-TRを提案する。
論文 参考訳(メタデータ) (2023-11-16T11:49:29Z) - When does In-context Learning Fall Short and Why? A Study on
Specification-Heavy Tasks [54.71034943526973]
In-context Learning (ICL)は、大規模言語モデル(LLM)のデフォルトメソッドとなっている。
ICLは、複雑で広範囲なタスク仕様を持つタスクである、仕様の重いタスクを処理できないことが分かりました。
我々は、コンテキストを具体的に理解できないこと、タスクスキーマが人間と理解できないこと、長文理解が不十分であること、の3つの主な理由を識別する。
論文 参考訳(メタデータ) (2023-11-15T14:26:30Z) - Are Large Language Models Temporally Grounded? [38.481606493496514]
文章を記述したLarge Language Model (LLM) を提供する。
イベントの構造と持続時間に関する常識的な知識に関して、それらを調査する。
これらの能力を反映した3つの課題に対して,最先端のLCMを評価した。
論文 参考訳(メタデータ) (2023-11-14T18:57:15Z) - LooGLE: Can Long-Context Language Models Understand Long Contexts? [50.408957515411096]
LooGLEは、大規模言語モデルの長いコンテキスト理解のためのベンチマークである。
2022年以降に比較的新しい文書が登場し、1ドキュメントあたり24,000以上のトークンと、さまざまな領域にまたがる6,000の新たな質問が提供されている。
LooGLEにおける8つの最先端LCMの評価から,重要な所見が得られた。
論文 参考訳(メタデータ) (2023-11-08T01:45:37Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - MenatQA: A New Dataset for Testing the Temporal Comprehension and
Reasoning Abilities of Large Language Models [17.322480769274062]
大規模言語モデル(LLM)は、多くの自然言語処理(NLP)タスクにおいてほぼ飽和した性能を示している。
本稿では,LLMの時間的理解と推論能力を評価するために,合計2,853個のサンプルを用いた多感性因子時間QA(MenatQA)を構築した。
論文 参考訳(メタデータ) (2023-10-08T13:19:52Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。