論文の概要: A Study into Investigating Temporal Robustness of LLMs
- arxiv url: http://arxiv.org/abs/2503.17073v1
- Date: Fri, 21 Mar 2025 11:56:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:57:36.235356
- Title: A Study into Investigating Temporal Robustness of LLMs
- Title(参考訳): LLMの経時的ロバスト性の検討
- Authors: Jonas Wallat, Abdelrahman Abdallah, Adam Jatowt, Avishek Anand,
- Abstract要約: 大きな言語モデル(LLM)は、驚くほど多くの実世界の知識をカプセル化します。
我々は, 時間情報処理能力に基づいて, LLMが質問応答の頑健さを正確に測定することを目的としている。
これらの8つのテストの選択が、モデルの時間的堅牢性を判断するために、どのように自動的に使用されるかを示す。
- 参考スコア(独自算出の注目度): 19.067901534284395
- License:
- Abstract: Large Language Models (LLMs) encapsulate a surprising amount of factual world knowledge. However, their performance on temporal questions and historical knowledge is limited because they often cannot understand temporal scope and orientation or neglect the temporal aspect altogether. In this study, we aim to measure precisely how robust LLMs are for question answering based on their ability to process temporal information and perform tasks requiring temporal reasoning and temporal factual knowledge. Specifically, we design eight time-sensitive robustness tests for factual information to check the sensitivity of six popular LLMs in the zero-shot setting. Overall, we find LLMs lacking temporal robustness, especially to temporal reformulations and the use of different granularities of temporal references. We show how a selection of these eight tests can be used automatically to judge a model's temporal robustness for user questions on the fly. Finally, we apply the findings of this study to improve the temporal QA performance by up to 55 percent.
- Abstract(参考訳): 大きな言語モデル(LLM)は、驚くほど多くの実世界の知識をカプセル化します。
しかしながら、時間的問題や歴史的知識に対する彼らのパフォーマンスは、時間的スコープと向きを理解できないことや、時間的側面を完全に無視することがしばしばあるため、制限されている。
本研究では、時間的情報処理能力と時間的推論と時間的事実知識を必要とするタスクの実行能力に基づいて、LLMが質問応答の頑健さを正確に測定することを目的とする。
具体的には、ゼロショット設定における6つのLLMの感度を確認するために、実情報に対する8つの時間感度頑健性試験を設計する。
全体として、時間的ロバスト性に欠けるLCM、特に時間的改革と時間的参照の粒度の異なる使用について見出した。
これらの8つのテストの選択が、モデルの時間的堅牢性を判断するために、どのように自動的に使用されるかを示す。
最後に, 時間的QA性能を最大55%向上させるために, 本研究の知見を適用した。
関連論文リスト
- Exploring Knowledge Boundaries in Large Language Models for Retrieval Judgment [56.87031484108484]
大規模言語モデル(LLM)は、その実践的応用でますます認識されている。
Retrieval-Augmented Generation (RAG)はこの課題に取り組み、LLMに大きな影響を与えている。
中立あるいは有害な結果をもたらす検索要求を最小化することにより、時間と計算コストの両方を効果的に削減できる。
論文 参考訳(メタデータ) (2024-11-09T15:12:28Z) - Enhancing Temporal Sensitivity and Reasoning for Time-Sensitive Question Answering [23.98067169669452]
Time-Sensitive Question Answering (TSQA)は、特定の時間的文脈を効果的に活用することを要求する。
本稿では,時間的認知と推論を時間的情報認識の埋め込みとグラニュラコントラスト強化学習を通じて促進する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2024-09-25T13:13:21Z) - Enhancing Temporal Understanding in LLMs for Semi-structured Tables [50.59009084277447]
我々は、大規模言語モデル(LLM)の特定の限界を特定するために、時間的データセットの包括的な分析を行う。
調査の結果,時間的時間的質問応答に特化したデータセットであるTempTabQAが強化された。
我々は,この領域におけるLLM機能を強化するために,新しいアプローチC.L.E.A.R.を導入する。
論文 参考訳(メタデータ) (2024-07-22T20:13:10Z) - Understanding the Relationship between Prompts and Response Uncertainty in Large Language Models [55.332004960574004]
大規模言語モデル(LLM)は意思決定に広く使用されているが、特に医療などの重要なタスクにおける信頼性は十分に確立されていない。
本稿では,LSMが生成する応答の不確実性が,入力プロンプトで提供される情報とどのように関連しているかを検討する。
本稿では,LLMが応答を生成する方法を説明し,プロンプトと応答の不確実性の関係を理解するためのプロンプト応答の概念モデルを提案する。
論文 参考訳(メタデータ) (2024-07-20T11:19:58Z) - Test of Time: A Benchmark for Evaluating LLMs on Temporal Reasoning [20.066249913943405]
大きな言語モデル(LLM)は驚くべき推論機能を示しているが、エラーの影響を受けやすい。
種々のシナリオにおいて,LLMの時間的推論能力を評価するために特別に設計された新しい合成データセットを提案する。
本研究は, 時間的推論作業におけるLLMの強度と弱点について, 貴重な知見を提供するものである。
論文 参考訳(メタデータ) (2024-06-13T14:31:19Z) - Living in the Moment: Can Large Language Models Grasp Co-Temporal Reasoning? [70.19200858203388]
時間的推論は、世界を理解するための大きな言語モデルの基本である。
CoTempQAは4つの時間的シナリオを含むベンチマークである。
実験の結果,LLMの性能と人間レベルの推論との間に大きなギャップがあることが判明した。
論文 参考訳(メタデータ) (2024-06-13T12:56:21Z) - Temporal Blind Spots in Large Language Models [20.631107338678234]
大規模言語モデル(LLM)は、様々な自然言語処理タスクを実行する非並列性のため、最近注目されている。
本研究では,時間的理解を必要とするタスクに対して,汎用LLMの基本的な限界について検討する。
論文 参考訳(メタデータ) (2024-01-22T16:20:14Z) - Towards Robust Temporal Reasoning of Large Language Models via a Multi-Hop QA Dataset and Pseudo-Instruction Tuning [73.51314109184197]
大規模言語モデル(LLM)には時間的知識の概念を理解することが不可欠である。
本稿では,複数質問応答と複数ホップの時間的推論に焦点をあてた複雑な時間的質問応答データセットであるComplex-TRを提案する。
論文 参考訳(メタデータ) (2023-11-16T11:49:29Z) - Temporal Knowledge Question Answering via Abstract Reasoning Induction [32.08799860090592]
本研究では,Large Language Models(LLMs)における時間的知識推論の高度化という課題に対処する。
本稿では,時間的推論を知識非依存と知識に基づく2つのフェーズに分割する抽象推論誘導(ARI)フレームワークを提案する。
提案手法は,2つの時間的QAデータセットに対して29.7%と9.27%の相対的な向上を達成している。
論文 参考訳(メタデータ) (2023-11-15T17:46:39Z) - MenatQA: A New Dataset for Testing the Temporal Comprehension and
Reasoning Abilities of Large Language Models [17.322480769274062]
大規模言語モデル(LLM)は、多くの自然言語処理(NLP)タスクにおいてほぼ飽和した性能を示している。
本稿では,LLMの時間的理解と推論能力を評価するために,合計2,853個のサンプルを用いた多感性因子時間QA(MenatQA)を構築した。
論文 参考訳(メタデータ) (2023-10-08T13:19:52Z) - Unlocking Temporal Question Answering for Large Language Models with Tailor-Made Reasoning Logic [84.59255070520673]
大きな言語モデル(LLM)は、時間的推論に関わる際に課題に直面します。
本研究では,時間的質問応答タスクに特化して設計された新しいフレームワークであるTempLogicを提案する。
論文 参考訳(メタデータ) (2023-05-24T10:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。