論文の概要: Efficient Knowledge Probing of Large Language Models by Adapting Pre-trained Embeddings
- arxiv url: http://arxiv.org/abs/2508.06030v1
- Date: Fri, 08 Aug 2025 05:32:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.088062
- Title: Efficient Knowledge Probing of Large Language Models by Adapting Pre-trained Embeddings
- Title(参考訳): 事前学習型埋め込み適応による大規模言語モデルの効率的な知識探索
- Authors: Kartik Sharma, Yiqiao Jin, Rakshit Trivedi, Srijan Kumar,
- Abstract要約: 大規模言語モデル(LLM)は、科学、歴史、地理など様々な分野の知識を取得する。
これらの手法は、特定の事実に関する LLM の知識を調査するために、基礎となるモデルを前方通過する必要がある。
LLMのプロキシとしてテキストやグラフとして事実知識を効果的にエンコードする埋め込みモデルを提案する。
- 参考スコア(独自算出の注目度): 27.08405655200845
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) acquire knowledge across diverse domains such as science, history, and geography encountered during generative pre-training. However, due to their stochasticity, it is difficult to predict what LLMs have acquired. Prior work has developed different ways to probe this knowledge by investigating the hidden representations, crafting specific task prompts, curating representative samples, and estimating their uncertainty. However, these methods require making forward passes through the underlying model to probe the LLM's knowledge about a specific fact, making them computationally expensive and time-consuming. To bridge this gap, we propose $\textbf{PEEK}$ or $\textbf{P}$roxy $\textbf{E}$mbeddings to $\textbf{E}$stimate $\textbf{K}$nowledge of LLMs, by leveraging the pre-trained embedding models that effectively encode factual knowledge as text or graphs as proxies for LLMs. First, we identify a training set of facts known by LLMs through various probing strategies and then adapt embedding models to predict the LLM outputs with a linear decoder layer. Comprehensive evaluation on $3$ Wikipedia-derived datasets, $4$ LLMs, and $7$ embedding models shows that embeddings can predict LLM knowledge on a held-out set with up to 90 % accuracy. Furthermore, we find that sentence embedding models are more suitable than graph embeddings to predict LLM knowledge, shedding light on the underlying representation of the factual landscape. Thus, we believe that knowledge-adapted embeddings can be used to identify knowledge gaps in LLMs at scale and can provide deeper insights into LLMs' internal inductive bias. The code and data are made available at https://github.com/claws-lab/peek.
- Abstract(参考訳): 大規模言語モデル(LLM)は、生成前訓練中に遭遇した科学、歴史、地理といった様々な分野の知識を取得する。
しかし,その確率性から,LSMが獲得したものを予測することは困難である。
以前の研究は、隠された表現を調査し、特定のタスクプロンプトを作成し、代表的なサンプルをキュレートし、不確実性を見積もることで、この知識を探索する様々な方法を開発した。
しかしながら、これらの手法は、特定の事実に関する LLM の知識を探索するために、基礎となるモデルを前方通過させ、計算コストと時間を要する。
このギャップを埋めるために、私たちは、LLMのプロキシとしてテキストやグラフとして事実知識を効果的にエンコードする事前学習された埋め込みモデルを利用して、$\textbf{P}$roxy $\textbf{E}$mbeddings to $\textbf{E}$stimate $\textbf{K}$nowledge of LLMsを提案する。
まず、様々な探索手法を用いてLLMで知られている事実のトレーニングセットを特定し、次に埋め込みモデルを適用して線形デコーダ層でLLM出力を予測する。
ウィキペディア由来のデータセット3ドル、LLM4ドル、埋め込みモデル7ドルの総合的な評価は、埋め込みによって最大90%の精度でLLMの知識を予測できることを示している。
さらに, 文章埋め込みモデルは, LLMの知識を予測するためにグラフ埋め込みよりも適しており, 事実景観の基本的な表現に光を当てている。
したがって,LLMの内部帰納バイアスについて,知識適応型埋め込みを用いてLLM内の知識ギャップを大規模に識別し,より深い洞察を与えることができると考えている。
コードとデータはhttps://github.com/claws-lab/peek.comで公開されている。
関連論文リスト
- Connecting the Dots: LLMs can Infer and Verbalize Latent Structure from Disparate Training Data [9.31120925026271]
本研究では, LLMが学習文書に分散した証拠から潜伏情報を推測する, 暗黙の帰納的推論(OOCR)について検討する。
ある実験では、未知の都市と他の既知の都市の間の距離のみからなるコーパスにLSMを微調整する。
OOCRは様々なケースで成功するが、特にLLMが複雑な構造を学ぶ場合、信頼性が低いことも示している。
論文 参考訳(メタデータ) (2024-06-20T17:55:04Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。