論文の概要: Inside-Out: Hidden Factual Knowledge in LLMs
- arxiv url: http://arxiv.org/abs/2503.15299v2
- Date: Mon, 24 Mar 2025 01:31:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 11:09:55.435442
- Title: Inside-Out: Hidden Factual Knowledge in LLMs
- Title(参考訳): 内部: LLMに隠されたファクチュアルな知識
- Authors: Zorik Gekhman, Eyal Ben David, Hadas Orgad, Eran Ofek, Yonatan Belinkov, Idan Szpektor, Jonathan Herzig, Roi Reichart,
- Abstract要約: この研究は、大言語モデル(LLM)が出力で表現したものよりも、パラメータの事実的知識を符号化するかどうかを評価するためのフレームワークを示す。
まず、与えられた質問に対して、正解が上位にランクされている正解対の分数として、その知識の形式的定義を定量化する。
次に、このフレームワークを3つの人気のあるオープンウェイト LLM に適用し、クローズドブック QA セットアップのケーススタディを示す。
- 参考スコア(独自算出の注目度): 50.79758420289131
- License:
- Abstract: This work presents a framework for assessing whether large language models (LLMs) encode more factual knowledge in their parameters than what they express in their outputs. While a few studies hint at this possibility, none has clearly defined or demonstrated this phenomenon. We first propose a formal definition of knowledge, quantifying it for a given question as the fraction of correct-incorrect answer pairs where the correct one is ranked higher. This gives rise to external and internal knowledge, depending on the information used to score individual answer candidates: either the model's observable token-level probabilities or its intermediate computations. Hidden knowledge arises when internal knowledge exceeds external knowledge. We then present a case study, applying this framework to three popular open-weights LLMs in a closed-book QA setup. Our results indicate that: (1) LLMs consistently encode more factual knowledge internally than what they express externally, with an average relative gap of 40%. (2) Surprisingly, some knowledge is so deeply hidden that a model can internally know an answer perfectly, yet fail to generate it even once, despite large-scale repeated sampling of 1,000 answers. This reveals fundamental limitations in the generation capabilities of LLMs, which (3) put a practical constraint on scaling test-time compute via repeated answer sampling in closed-book QA: significant performance improvements remain inaccessible because some answers are practically never sampled, yet if they were, we would be guaranteed to rank them first.
- Abstract(参考訳): この研究は、大言語モデル(LLM)が出力で表現したものよりも、パラメータの事実的知識を符号化するかどうかを評価するためのフレームワークを示す。
この可能性を示唆する研究はいくつかあるが、この現象を明確に定義または実証する者はいない。
まず、与えられた質問に対して、正解が上位にランクされている正解対の分数として、その知識の形式的定義を定量化する。
これにより、個々の回答候補を評価するために使用される情報、すなわちモデルの観測可能なトークンレベルの確率またはその中間計算に依存する、外部および内部の知識が生まれる。
隠れた知識は、内部知識が外部知識を超えたときに生じる。
次に、このフレームワークを3つの人気のあるオープンウェイト LLM に適用し、クローズドブック QA セットアップのケーススタディを示す。
1) LLMは, 平均相対的ギャップを40%に抑えながら, 外部表現よりも事実的知識を常に内部的にエンコードしている。
2) 意外なことに,1,000件の回答を大規模に繰り返し収集したにもかかわらず,モデルが内部で解答を完璧に知ることができず,一度でも生成できないような知識は,非常に深く隠されている。
このことはLCMの生成能力の根本的な制限を明らかにし、(3) クローズドブックQAにおける繰り返し回答サンプリングによるテスト時間計算のスケーリングに実用的な制約を課している。
関連論文リスト
- Are LLMs Really Not Knowledgable? Mining the Submerged Knowledge in LLMs' Memory [15.986679553468989]
大規模言語モデル(LLM)は潜在的な知識基盤として有望であることを示している。
LLMは質問応答タスクに苦しむことが多く、幻覚を起こす傾向がある。
我々は,検出されたが表現されていない知識を活用することで,解答精度を向上させる手法であるSkipUnsureを開発した。
論文 参考訳(メタデータ) (2024-12-30T10:29:18Z) - Perception of Knowledge Boundary for Large Language Models through Semi-open-ended Question Answering [67.94354589215637]
大きな言語モデル(LLM)は知識探索に広く用いられているが、幻覚に悩まされている。
本稿では,LLMの知識境界(KB)を半オープンな質問(SoeQ)で知覚する。
GPT-4 は SoeQ では性能が悪く,KB に気づいていないことが多い。
我々の補助モデルであるLLaMA-2-13Bは、より曖昧な答えを見つけるのに有効である。
論文 参考訳(メタデータ) (2024-05-23T10:00:14Z) - Towards Reliable Latent Knowledge Estimation in LLMs: Zero-Prompt Many-Shot Based Factual Knowledge Extraction [15.534647327246239]
本稿では,大規模言語モデル(LLM)を事実知識として探索する場合に,迅速なエンジニアリングを不要にすることを提案する。
我々のアプローチはZP-LKE(Zero-Prompt Latent Knowledge Estimator)と呼ばれ、LLMの文脈内学習能力を活用している。
我々は,Wikidata の知識ベースから,さまざまなオープンソース LLM の事実知識を,膨大な関連性や事実に対して大規模に評価する。
論文 参考訳(メタデータ) (2024-04-19T15:40:39Z) - RECALL: A Benchmark for LLMs Robustness against External Counterfactual
Knowledge [69.79676144482792]
本研究の目的は,LLMが外部知識から信頼できる情報を識別する能力を評価することである。
本ベンチマークは,質問応答とテキスト生成という2つのタスクから構成される。
論文 参考訳(メタデータ) (2023-11-14T13:24:19Z) - Self-Knowledge Guided Retrieval Augmentation for Large Language Models [59.771098292611846]
大規模言語モデル(LLM)はタスク固有の微調整なしで優れた性能を示す。
検索に基づく手法は、非パラメトリックな世界知識を提供し、質問応答のようなタスクのパフォーマンスを向上させることができる。
SKR(Self-Knowledge guided Retrieval augmentation)は、LLMがこれまで遭遇した質問を参照できるようにする、シンプルで効果的な方法である。
論文 参考訳(メタデータ) (2023-10-08T04:22:33Z) - FreshLLMs: Refreshing Large Language Models with Search Engine
Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。
多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。
我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。
これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文 参考訳(メタデータ) (2023-10-05T00:04:12Z) - Knowledge Solver: Teaching LLMs to Search for Domain Knowledge from
Knowledge Graphs [19.0797968186656]
大規模言語モデル(LLM)は汎用的であり、その創発的能力と一般化性のために異なるタスクを解くことができる。
以前の研究では、グラフニューラルネットワーク(GNN)のような追加モジュールは、外部の知識ベースから取得した知識に基づいて訓練されている。
論文 参考訳(メタデータ) (2023-09-06T15:55:01Z) - Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentation [109.8527403904657]
大規模言語モデル(LLM)は,その知識に対する信頼度が低く,内部知識と外部知識の衝突をうまく扱えないことを示す。
検索の強化は、LLMの知識境界に対する認識を高める効果的なアプローチであることが証明されている。
本稿では,文書を動的に活用するための簡易な手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T16:46:10Z) - Knowledge-Augmented Language Model Prompting for Zero-Shot Knowledge
Graph Question Answering [7.888547093390469]
大言語モデル(LLM)は、ゼロショットのクローズドブック質問応答タスクを実行することができる。
我々は,LSMの入力において,その知識を直接拡張することを提案する。
我々のフレームワークであるKAPING(Knowledge-Augmented Language Model Prompting)は、モデルトレーニングを必要としないため、完全にゼロショットである。
論文 参考訳(メタデータ) (2023-06-07T04:15:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。