論文の概要: Mining the Mind: What 100M Beliefs Reveal About Frontier LLM Knowledge
- arxiv url: http://arxiv.org/abs/2510.07024v1
- Date: Wed, 08 Oct 2025 13:48:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.529585
- Title: Mining the Mind: What 100M Beliefs Reveal About Frontier LLM Knowledge
- Title(参考訳): マイニング・ザ・マインド:LLMのフロンティアに関する1億人の信条
- Authors: Shrestha Ghosh, Luca Giordano, Yujia Hu, Tuan-Phong Nguyen, Simon Razniewski,
- Abstract要約: 我々は,GPTKB v1.5に基づいて,フロンティアLEMの事実的知識(あるいは信念)を深く探究する。
モデルの事実的知識は,確立された知識ベースとは大きく異なり,その精度は従来のベンチマークよりも著しく低いことがわかった。
- 参考スコア(独自算出の注目度): 10.977041908294673
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs are remarkable artifacts that have revolutionized a range of NLP and AI tasks. A significant contributor is their factual knowledge, which, to date, remains poorly understood, and is usually analyzed from biased samples. In this paper, we take a deep tour into the factual knowledge (or beliefs) of a frontier LLM, based on GPTKB v1.5 (Hu et al., 2025a), a recursively elicited set of 100 million beliefs of one of the strongest currently available frontier LLMs, GPT-4.1. We find that the models' factual knowledge differs quite significantly from established knowledge bases, and that its accuracy is significantly lower than indicated by previous benchmarks. We also find that inconsistency, ambiguity and hallucinations are major issues, shedding light on future research opportunities concerning factual LLM knowledge.
- Abstract(参考訳): LLMは、さまざまなNLPやAIタスクに革命をもたらした、素晴らしい成果物です。
重要な貢献者は、その事実的知識であり、それは未だに理解されていないままであり、通常は偏りのあるサンプルから分析される。
本稿では,GPTKB v1.5(Hu et al , 2025a)に基づくフロンティアLLMの事実的知識(あるいは信念)について,現在最強のフロンティアLLMであるGPT-4.1について,再帰的に1億の信条の集合であるGPTKB v1.5(Hu et al , 2025a)に基づいて,深いツアーを行う。
モデルの事実的知識は,確立された知識ベースとは大きく異なり,その精度は従来のベンチマークよりも著しく低いことがわかった。
また,不整合,曖昧性,幻覚が大きな問題であり,事実的LLM知識に関する今後の研究機会に光を当てている。
関連論文リスト
- Enabling LLM Knowledge Analysis via Extensive Materialization [15.276041443299905]
GPTKBは、GPT-4o-miniという290万以上のエンティティに対して101万トリプルの知識ベースである。
我々は、GPTKBを用いて、GPT-4o-miniの事実知識を、スケール、精度、バイアス、一貫性の観点から内部的に分析する。
論文 参考訳(メタデータ) (2024-11-07T17:57:03Z) - To Know or Not To Know? Analyzing Self-Consistency of Large Language Models under Ambiguity [27.10502683001428]
本稿では, 実体型あいまいさに着目し, 不明瞭な実体を刺激した場合の事実知識の適用において, 最先端のLCMの習熟度と一貫性を解析する。
実験の結果、LLMは正しいエンティティの読み取りを選択するのに苦労し、平均精度は85%、未特定のプロンプトで75%と低いことがわかった。
論文 参考訳(メタデータ) (2024-07-24T09:48:48Z) - Prompting Large Language Models with Knowledge Graphs for Question Answering Involving Long-tail Facts [50.06633829833144]
大規模言語モデル(LLM)は、様々なNLPタスクを実行するのに効果的であるが、広範囲の現実世界の知識を必要とするタスクを扱うのに苦労する。
我々は,関連する疑問に答えるために,長期的事実の知識を必要とするベンチマークを提案する。
実験の結果,LLMだけでこれらの疑問に答えるのに苦労していることが明らかとなった。
論文 参考訳(メタデータ) (2024-05-10T15:10:20Z) - Towards Reliable Latent Knowledge Estimation in LLMs: Zero-Prompt Many-Shot Based Factual Knowledge Extraction [15.534647327246239]
本稿では,大規模言語モデル(LLM)を事実知識として探索する場合に,迅速なエンジニアリングを不要にすることを提案する。
我々のアプローチはZP-LKE(Zero-Prompt Latent Knowledge Estimator)と呼ばれ、LLMの文脈内学習能力を活用している。
我々は,Wikidata の知識ベースから,さまざまなオープンソース LLM の事実知識を,膨大な関連性や事実に対して大規模に評価する。
論文 参考訳(メタデータ) (2024-04-19T15:40:39Z) - Do Large Language Models Know about Facts? [60.501902866946]
大規模言語モデル(LLM)は、最近、さまざまな自然言語処理タスクにおいて、大幅なパフォーマンス改善を推進している。
我々は,ベンチマークPinocchioを設計し,LLM内の事実知識の範囲と範囲を評価することを目的とする。
Pinocchioには、異なるソース、タイムライン、ドメイン、リージョン、言語にまたがる20万のさまざまな事実質問が含まれている。
論文 参考訳(メタデータ) (2023-10-08T14:26:55Z) - Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentation [109.8527403904657]
大規模言語モデル(LLM)は,その知識に対する信頼度が低く,内部知識と外部知識の衝突をうまく扱えないことを示す。
検索の強化は、LLMの知識境界に対する認識を高める効果的なアプローチであることが証明されている。
本稿では,文書を動的に活用するための簡易な手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T16:46:10Z) - Statistical Knowledge Assessment for Large Language Models [79.07989821512128]
ファクトイドの問題に関する様々なプロンプトを考慮すれば、大きな言語モデル(LLM)は事実的に正しい答えを確実に生成できるだろうか?
LLMの事実知識を評価する統計的手法であるKaRRを提案する。
この結果から,同じバックボーン構造を持つLLMの知識はスケーリング法則に則っており,命令追従データに基づくチューニングは,実際に正しいテキストを確実に生成するモデルの能力を損なう場合があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T18:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。