論文の概要: LLMLagBench: Identifying Temporal Training Boundaries in Large Language Models
- arxiv url: http://arxiv.org/abs/2511.12116v1
- Date: Sat, 15 Nov 2025 09:08:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.618175
- Title: LLMLagBench: Identifying Temporal Training Boundaries in Large Language Models
- Title(参考訳): LLMLagBench:大規模言語モデルにおける時間的トレーニング境界の同定
- Authors: Piotr Pęzik, Konrad Kaczyński, Maria Szymańska, Filip Żarnecki, Zuzanna Deckert, Jakub Kwiatkowski, Wojciech Janowski,
- Abstract要約: 大規模言語モデル(LLM)は、特定の時間的カットオフまでのテキストデータに基づいて事前訓練される。
LLMは必然的に時代遅れのタイムセンシティブな情報を推論タスク中に一般的な知識とブレンドすることができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are pretrained on textual data up to a specific temporal cutoff. This creates a strict knowledge boundary beyond which models cannot provide accurate information without querying external sources. More subtly, when this limitation is unknown or ignored, LLMs may inadvertently blend outdated time-sensitive information with general knowledge during reasoning tasks, potentially compromising response accuracy. We introduce LLMLagBench, an LLM freshness benchmark, as a systematic approach for identifying the earliest probable temporal boundaries of an LLM's training data by evaluating its knowledge of recent events. We then apply this benchmark to evaluate a large set of LLMs, including models with both explicitly declared and undeclared training cutoffs. The reliability of the benchmark is assessed by manual validation and comparison with publicly released information about LLM pretraining.
- Abstract(参考訳): 大規模言語モデル(LLM)は、特定の時間的カットオフまでのテキストデータに基づいて事前訓練される。
これにより、モデルが外部ソースを問い合わせることなく正確な情報を提供できないような、厳密な知識境界が形成される。
さらに、この制限が未知あるいは無視されている場合、LCMは故意に時代遅れの時間依存情報を推論タスク中に一般的な知識とブレンドし、応答精度を損なう可能性がある。
LLMの新鮮度ベンチマークであるLLMLagBenchは、最近の出来事の知識を評価することで、LLMのトレーニングデータの最も早い時間境界を特定するための体系的なアプローチである。
次に、このベンチマークを用いて、明示的に宣言されたトレーニングカットオフと宣言されていないトレーニングカットオフの両方のモデルを含む、LLMの大規模なセットを評価する。
ベンチマークの信頼性は、手作業による検証と、LLM事前トレーニングに関する情報の公開による比較によって評価される。
関連論文リスト
- Can Prompts Rewind Time for LLMs? Evaluating the Effectiveness of Prompted Knowledge Cutoffs [31.64130018833542]
大規模言語モデル(LLM)は時間的予測に広く用いられているが、事前学習データへの依存は汚染の懸念を引き起こす。
LLMにおける初期の知識遮断をシミュレートする能力について検討する。
以上の結果から, 即時的知識カットオフは, その日以降の情報を直接クエリした場合の有効性を示すが, 忘れた内容が直接問い合わせられるのではなく, 慎重にクエリに関連付けられている場合, 忘れることの誘発に苦慮していることが示された。
論文 参考訳(メタデータ) (2025-09-26T20:37:44Z) - MoRE-LLM: Mixture of Rule Experts Guided by a Large Language Model [54.14155564592936]
大規模言語モデル(MoRE-LLM)によるルールエキスパートの混合を提案する。
MoRE-LLMは、トレーニング中の局所的なルールベースのサロゲートの発見と、それらの分類タスクの利用を操縦する。
LLMはルールを修正・コンテキスト化することで、ルールのドメイン知識の整合性を高める役割を担います。
論文 参考訳(メタデータ) (2025-03-26T11:09:21Z) - UAlign: Leveraging Uncertainty Estimations for Factuality Alignment on Large Language Models [41.67393607081513]
大きな言語モデル(LLM)は、しばしば、彼らが持っている事実の知識を正確に表現するのに苦労する。
知識境界を表現するために不確実性推定を利用するUAlignフレームワークを提案する。
提案したUAlign は LLM の能力を大幅に向上させ,既知の疑問に自信を持って答えることができることを示す。
論文 参考訳(メタデータ) (2024-12-16T14:14:27Z) - Dynamic Uncertainty Ranking: Enhancing Retrieval-Augmented In-Context Learning for Long-Tail Knowledge in LLMs [50.29035873837]
大規模言語モデル(LLM)は、事前訓練中に多様なドメインから膨大な量の知識を学習することができる。
専門ドメインからの長い尾の知識は、しばしば不足し、表現されていないため、モデルの記憶にはほとんど現れない。
ICLの強化学習に基づく動的不確実性ランキング手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T03:42:17Z) - Formality is Favored: Unraveling the Learning Preferences of Large Language Models on Data with Conflicting Knowledge [55.65162959527848]
大規模言語モデルは、多くの知識集約的なタスクにおいて優れたパフォーマンスを示している。
しかし、事前学習データには誤解を招く傾向があり、矛盾する情報も含まれている。
本研究では,LLMの学習嗜好を,矛盾する知識を持つデータに対して体系的に分析する。
論文 参考訳(メタデータ) (2024-10-07T06:49:41Z) - CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。
分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。
本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文 参考訳(メタデータ) (2024-05-20T14:34:01Z) - CALF: Aligning LLMs for Time Series Forecasting via Cross-modal Fine-Tuning [59.88924847995279]
MTSFのためのクロスモーダルLCMファインチューニング(CALF)フレームワークを提案する。
分散の相違を低減するため,クロスモーダルマッチングモジュールを開発した。
CALFは、長期および短期の予測タスクの最先端のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2024-03-12T04:04:38Z) - Temporal Blind Spots in Large Language Models [20.631107338678234]
大規模言語モデル(LLM)は、様々な自然言語処理タスクを実行する非並列性のため、最近注目されている。
本研究では,時間的理解を必要とするタスクに対して,汎用LLMの基本的な限界について検討する。
論文 参考訳(メタデータ) (2024-01-22T16:20:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。