Fugu-MT 論文翻訳(概要): LLMLagBench: Identifying Temporal Training Boundaries in Large Language Models

論文の概要: LLMLagBench: Identifying Temporal Training Boundaries in Large Language Models

arxiv url: http://arxiv.org/abs/2511.12116v1
Date: Sat, 15 Nov 2025 09:08:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-18 14:36:23.618175
Title: LLMLagBench: Identifying Temporal Training Boundaries in Large Language Models
Title（参考訳）: LLMLagBench:大規模言語モデルにおける時間的トレーニング境界の同定
Authors: Piotr Pęzik, Konrad Kaczyński, Maria Szymańska, Filip Żarnecki, Zuzanna Deckert, Jakub Kwiatkowski, Wojciech Janowski,
Abstract要約: 大規模言語モデル(LLM)は、特定の時間的カットオフまでのテキストデータに基づいて事前訓練される。 LLMは必然的に時代遅れのタイムセンシティブな情報を推論タスク中に一般的な知識とブレンドすることができる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) are pretrained on textual data up to a specific temporal cutoff. This creates a strict knowledge boundary beyond which models cannot provide accurate information without querying external sources. More subtly, when this limitation is unknown or ignored, LLMs may inadvertently blend outdated time-sensitive information with general knowledge during reasoning tasks, potentially compromising response accuracy. We introduce LLMLagBench, an LLM freshness benchmark, as a systematic approach for identifying the earliest probable temporal boundaries of an LLM's training data by evaluating its knowledge of recent events. We then apply this benchmark to evaluate a large set of LLMs, including models with both explicitly declared and undeclared training cutoffs. The reliability of the benchmark is assessed by manual validation and comparison with publicly released information about LLM pretraining.
Abstract（参考訳）: 大規模言語モデル(LLM)は、特定の時間的カットオフまでのテキストデータに基づいて事前訓練される。これにより、モデルが外部ソースを問い合わせることなく正確な情報を提供できないような、厳密な知識境界が形成される。さらに、この制限が未知あるいは無視されている場合、LCMは故意に時代遅れの時間依存情報を推論タスク中に一般的な知識とブレンドし、応答精度を損なう可能性がある。 LLMの新鮮度ベンチマークであるLLMLagBenchは、最近の出来事の知識を評価することで、LLMのトレーニングデータの最も早い時間境界を特定するための体系的なアプローチである。次に、このベンチマークを用いて、明示的に宣言されたトレーニングカットオフと宣言されていないトレーニングカットオフの両方のモデルを含む、LLMの大規模なセットを評価する。ベンチマークの信頼性は、手作業による検証と、LLM事前トレーニングに関する情報の公開による比較によって評価される。

関連論文リスト

Parametric Knowledge is Not All You Need: Toward Honest Large Language Models via Retrieval of Pretraining Data [33.6173339938215]
大規模言語モデル(LLM)は疑問に答える能力が高いが、彼ら自身の知識境界に気づいていないことが多い。幻覚よりも、言語モデルはより正直で、トピックに関する十分な知識がなければ、"私は知らない"と答えるべきです。
論文参考訳（メタデータ） (2026-01-29T03:32:09Z)
Is More Context Always Better? Examining LLM Reasoning Capability for Time Interval Prediction [15.45305246863211]
大規模言語モデル(LLM)は、異なるドメインをまたいだ推論と予測において印象的な能力を示している。本稿では,LLMが繰り返しユーザの行動の時間間隔を予測できるかどうかを系統的に検討する。我々は、統計モデルと機械学習モデルの両方に対してゼロショット設定で最先端のLCMをベンチマークする。
論文参考訳（メタデータ） (2026-01-15T07:18:40Z)
Can Prompts Rewind Time for LLMs? Evaluating the Effectiveness of Prompted Knowledge Cutoffs [31.64130018833542]
大規模言語モデル(LLM)は時間的予測に広く用いられているが、事前学習データへの依存は汚染の懸念を引き起こす。 LLMにおける初期の知識遮断をシミュレートする能力について検討する。以上の結果から, 即時的知識カットオフは, その日以降の情報を直接クエリした場合の有効性を示すが, 忘れた内容が直接問い合わせられるのではなく, 慎重にクエリに関連付けられている場合, 忘れることの誘発に苦慮していることが示された。
論文参考訳（メタデータ） (2025-09-26T20:37:44Z)
Language Bottleneck Models: A Framework for Interpretable Knowledge Tracing and Beyond [55.984684518346924]
我々は、知識追跡を逆問題として再考する: 過去の回答を説明できる最小限の自然言語要約を学習し、将来の回答を予測できる。我々のLanguage Bottleneck Model(LBM)は、解釈可能な知識要約を書くエンコーダLLMと、その要約テキストのみを使用して生徒の反応を再構成し予測しなければならないフリーズデコーダLLMで構成されている。合成算術ベンチマークと大規模Eediデータセットの実験により、LBMは最先端のKT法と直接LLM法の精度に匹敵する一方で、受講者軌道のオーダーを少なくすることを示した。
論文参考訳（メタデータ） (2025-06-20T13:21:14Z)
MoRE-LLM: Mixture of Rule Experts Guided by a Large Language Model [54.14155564592936]
大規模言語モデル(MoRE-LLM)によるルールエキスパートの混合を提案する。 MoRE-LLMは、トレーニング中の局所的なルールベースのサロゲートの発見と、それらの分類タスクの利用を操縦する。 LLMはルールを修正・コンテキスト化することで、ルールのドメイン知識の整合性を高める役割を担います。
論文参考訳（メタデータ） (2025-03-26T11:09:21Z)
How Much Knowledge Can You Pack into a LoRA Adapter without Harming LLM? [55.33467849079774]
ローランク適応(ローランク適応、LoRA)は、大規模言語モデルの更新やドメイン固有適応のための一般的かつ効率的な訓練手法である。これまでに学習した知識を損なうことなく, LoRA を用いて LLM に新たな事実を組み込む方法について検討した。
論文参考訳（メタデータ） (2025-02-20T12:31:03Z)
UAlign: Leveraging Uncertainty Estimations for Factuality Alignment on Large Language Models [41.67393607081513]
大きな言語モデル(LLM)は、しばしば、彼らが持っている事実の知識を正確に表現するのに苦労する。知識境界を表現するために不確実性推定を利用するUAlignフレームワークを提案する。提案したUAlign は LLM の能力を大幅に向上させ,既知の疑問に自信を持って答えることができることを示す。
論文参考訳（メタデータ） (2024-12-16T14:14:27Z)
Dynamic Uncertainty Ranking: Enhancing Retrieval-Augmented In-Context Learning for Long-Tail Knowledge in LLMs [50.29035873837]
大規模言語モデル(LLM)は、事前訓練中に多様なドメインから膨大な量の知識を学習することができる。専門ドメインからの長い尾の知識は、しばしば不足し、表現されていないため、モデルの記憶にはほとんど現れない。 ICLの強化学習に基づく動的不確実性ランキング手法を提案する。
論文参考訳（メタデータ） (2024-10-31T03:42:17Z)
Formality is Favored: Unraveling the Learning Preferences of Large Language Models on Data with Conflicting Knowledge [55.65162959527848]
大規模言語モデルは、多くの知識集約的なタスクにおいて優れたパフォーマンスを示している。しかし、事前学習データには誤解を招く傾向があり、矛盾する情報も含まれている。本研究では,LLMの学習嗜好を,矛盾する知識を持つデータに対して体系的に分析する。
論文参考訳（メタデータ） (2024-10-07T06:49:41Z)
CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文参考訳（メタデータ） (2024-05-20T14:34:01Z)
CALF: Aligning LLMs for Time Series Forecasting via Cross-modal Fine-Tuning [59.88924847995279]
MTSFのためのクロスモーダルLCMファインチューニング(CALF)フレームワークを提案する。分散の相違を低減するため,クロスモーダルマッチングモジュールを開発した。 CALFは、長期および短期の予測タスクの最先端のパフォーマンスを確立する。
論文参考訳（メタデータ） (2024-03-12T04:04:38Z)
Temporal Blind Spots in Large Language Models [20.631107338678234]
大規模言語モデル(LLM)は、様々な自然言語処理タスクを実行する非並列性のため、最近注目されている。本研究では,時間的理解を必要とするタスクに対して,汎用LLMの基本的な限界について検討する。
論文参考訳（メタデータ） (2024-01-22T16:20:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。