論文の概要: Empty Shelves or Lost Keys? Recall Is the Bottleneck for Parametric Factuality
- arxiv url: http://arxiv.org/abs/2602.14080v1
- Date: Sun, 15 Feb 2026 10:13:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.643547
- Title: Empty Shelves or Lost Keys? Recall Is the Bottleneck for Parametric Factuality
- Title(参考訳): ささやかな棚」か「失われた鍵」か? - パラメトリック・ファクチュアリティのためのボトルネックのリコール
- Authors: Nitay Calderon, Eyal Ben-David, Zorik Gekhman, Eran Ofek, Gal Yona,
- Abstract要約: 質問よりも事実のレベルで事実知識をプロファイルする行動枠組みを提案する。
WikiProfileは自動パイプラインで構築された新しいベンチマークで,Web検索に LLM が組み込まれている。
GPT-5とGemini-3は95~98%の事実を符号化している。
我々は、思考がリコールを改善し、かなりの数の障害を回復できることを示し、将来の利益はスケーリングよりも、モデルがすでにコード化したものをどのように利用するかを改善する方法に依存していることを示している。
- 参考スコア(独自算出の注目度): 17.145291710580675
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard factuality evaluations of LLMs treat all errors alike, obscuring whether failures arise from missing knowledge (empty shelves) or from limited access to encoded facts (lost keys). We propose a behavioral framework that profiles factual knowledge at the level of facts rather than questions, characterizing each fact by whether it is encoded, and then by how accessible it is: cannot be recalled, can be directly recalled, or can only be recalled with inference-time computation (thinking). To support such profiling, we introduce WikiProfile, a new benchmark constructed via an automated pipeline with a prompted LLM grounded in web search. Across 4 million responses from 13 LLMs, we find that encoding is nearly saturated in frontier models on our benchmark, with GPT-5 and Gemini-3 encoding 95--98% of facts. However, recall remains a major bottleneck: many errors previously attributed to missing knowledge instead stem from failures to access it. These failures are systematic and disproportionately affect long-tail facts and reverse questions. Finally, we show that thinking improves recall and can recover a substantial fraction of failures, indicating that future gains may rely less on scaling and more on methods that improve how models utilize what they already encode.
- Abstract(参考訳): LLMの標準的な事実性評価は、すべてのエラーを扱い、不足した知識(空の棚)から発生するか、あるいは符号化された事実(ロストキー)への限られたアクセスから生じるかを確認する。
本研究では,質問よりも事実のレベルで事実の知識をプロファイルし,各事実が符号化されているかどうかを特徴付けるとともに,それがどの程度アクセス可能か,どのようにリコール可能か,直接リコール可能か,あるいは推論時間計算でのみリコール可能か,といった行動的枠組みを提案する。
このようなプロファイリングをサポートするために,Web検索にLLMを付加した自動パイプラインによって構築された新しいベンチマークであるWikiProfileを紹介した。
13のLLMからの400万件のレスポンスに対して、GPT-5とGemini-3は95-98%の事実を符号化し、我々のベンチマークのフロンティアモデルではエンコーディングがほぼ飽和していることがわかった。
しかし、リコールは依然として大きなボトルネックであり、これまで多くのエラーは知識の欠如に起因するものだった。
これらの失敗は体系的であり、不均等に長期にわたる事実や逆問題に影響を及ぼす。
最後に、思考がリコールを改善し、かなりの数の障害を回復できることを示し、将来の利益はスケーリングよりも、モデルがすでにエンコードしているものをどのように利用するかを改善する方法に依存する可能性があることを示した。
関連論文リスト
- REBEL: Hidden Knowledge Recovery via Evolutionary-Based Evaluation Loop [11.291998503454854]
LLMの機械学習は、訓練されたモデルから機密データや著作権データを除去することを目的としている。
標準的な評価基準は、真の知識の除去のために表面的な情報抑圧を間違えることの多い良心的なクエリに依存している。
本稿では,未学習データの復元がまだ可能であるかどうかを調査するために設計された,敵対的プロンプト生成のための進化的アプローチであるREBELを紹介する。
論文 参考訳(メタデータ) (2026-02-05T22:54:56Z) - Repairing vulnerabilities without invisible hands. A differentiated replication study on LLMs [5.10123605644148]
自動脆弱性修復(AVR: Automated Vulnerability repair)は、プログラム修復の急激な分岐である。
近年の研究では、大きな言語モデル(LLM)が従来の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2025-07-28T16:39:16Z) - Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。
データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。
最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文 参考訳(メタデータ) (2025-06-16T10:32:10Z) - Erasing Without Remembering: Implicit Knowledge Forgetting in Large Language Models [81.62767292169225]
我々は,その一般化に着目して,大規模言語モデルにおける知識の忘れについて検討する。
確率摂動に基づく新しいアンラーニングパラダイムであるPerMUを提案する。
TOFU、Harry Potter、ZsRE、WMDP、MUSEなど、さまざまなデータセットで実験が行われている。
論文 参考訳(メタデータ) (2025-02-27T11:03:33Z) - Are LLMs Really Not Knowledgable? Mining the Submerged Knowledge in LLMs' Memory [15.986679553468989]
大規模言語モデル(LLM)は潜在的な知識基盤として有望であることを示している。
LLMは質問応答タスクに苦しむことが多く、幻覚を起こす傾向がある。
我々は,検出されたが表現されていない知識を活用することで,解答精度を向上させる手法であるSkipUnsureを開発した。
論文 参考訳(メタデータ) (2024-12-30T10:29:18Z) - A Deep Dive Into Large Language Model Code Generation Mistakes: What and Why? [9.246899995643918]
大規模な言語モデルは、仕様から逸脱する欠陥コードを生成することができる。
広範囲な手動分析により, ノンシンタクティックな誤りの7つのカテゴリーが同定された。
評価の結果,LPMの誤りの原因を特定すると,ReActプロンプト技術を用いたGPT-4が最大0.65のF1スコアを達成できることがわかった。
論文 参考訳(メタデータ) (2024-11-03T02:47:03Z) - FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。
発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。
本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文 参考訳(メタデータ) (2024-04-05T02:35:43Z) - The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。
それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。
LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文 参考訳(メタデータ) (2024-01-01T14:02:27Z) - When Not to Trust Language Models: Investigating Effectiveness of
Parametric and Non-Parametric Memories [58.3421305091187]
本稿では,事実知識を記憶する上でのLMの強みと限界を理解することを目的とする。
LMは、あまり一般的でない事実知識に苦しむと同時に、長期にわたる事実知識の記憶力向上に失敗する。
我々は、必要時にのみ非パラメトリックメモリを検索する、強力かつ効率的な検索拡張LMの簡易かつ効果的な手法を考案する。
論文 参考訳(メタデータ) (2022-12-20T18:30:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。