論文の概要: LLMpedia: A Transparent Framework to Materialize an LLM's Encyclopedic Knowledge at Scale
- arxiv url: http://arxiv.org/abs/2603.24080v1
- Date: Wed, 25 Mar 2026 08:37:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.213397
- Title: LLMpedia: A Transparent Framework to Materialize an LLM's Encyclopedic Knowledge at Scale
- Title(参考訳): LLMpedia: LLMの百科事典知識を大規模に物質化する透過的なフレームワーク
- Authors: Muhammed Saeed, Simon Razniewski,
- Abstract要約: LLMpediaはパラメトリックメモリから完全に百科事典を生成する。
ウィキペディアでカバーされた被験者の真偽は74.7%である。
Grokipediaとは異なり、すべてのプロンプト、アーティファクト、評価の評定が公開されている。
- 参考スコア(独自算出の注目度): 10.223945061944521
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Benchmarks such as MMLU suggest flagship language models approach factuality saturation, with scores above 90\%. We show this picture is incomplete. \emph{LLMpedia} generates encyclopedic articles entirely from parametric memory, producing ${\sim}$1M articles across three model families without retrieval. For gpt-5-mini, the verifiable true rate on Wikipedia-covered subjects is only 74.7\% -- more than 15 percentage points below the benchmark-based picture, consistent with the availability bias of fixed-question evaluation. Beyond Wikipedia, frontier subjects verifiable only through curated web evidence fall further to 63.2\% true rate. Wikipedia covers just 61\% of surfaced subjects, and three model families overlap by only 7.3\% in subject choice. In a capture-trap benchmark inspired by prior analysis of Grokipedia, LLMpedia achieves substantially higher factuality at roughly half the textual similarity to Wikipedia. Unlike Grokipedia, every prompt, artifact, and evaluation verdict is publicly released, making LLMpedia the first fully open parametric encyclopedia -- bridging factuality evaluation and knowledge materialization. All data, code, and a browsable interface are at https://llmpedia.net.
- Abstract(参考訳): MMLUなどのベンチマークでは、フラグシップ言語モデルがファクトリティ飽和に近づき、スコアは90%以上である。
私たちはこの絵が不完全であることを示す。
\emph{LLMpedia}は、パラメトリックメモリから完全に百科事典の記事を生成し、3つのモデルファミリにわたる${\sim}$100Mの記事を検索せずに生成する。
gpt-5-mini の場合、ウィキペディアでカバーされた被験者の真偽率は 74.7\% に過ぎず、ベンチマークベースの画像より15%以上低い。
ウィキペディア以外では、キュレートされたウェブ証拠によってのみ検証されるフロンティアの被験者は63.2\%にさらに減少する。
ウィキペディアは被写体の61%に過ぎず、3つのモデルファミリーは被写体選択の7.3倍に重なっている。
Grokipediaの以前の分析にインスパイアされたキャプチャ・トラップのベンチマークでは、LLMpediaはウィキペディアとテキストの類似点の約半分で、かなり高い事実性を達成している。
グロキペディアとは異なり、すべてのプロンプト、アーティファクト、評価の評定が公開され、LLMpediaは最初の完全にオープンなパラメトリック百科事典となり、事実性評価と知識の実体化を橋渡しする。
すべてのデータ、コード、ブラウズ可能なインターフェースはhttps://llmpedia.net.comにある。
関連論文リスト
- Wiki Live Challenge: Challenging Deep Research Agents with Expert-Level Wikipedia Articles [56.724847946825285]
Wiki Live Challenge (WLC)は、最新のWikipedia Good Articles(GA)をエキスパートレベルの参照として活用する、ライブベンチマークである。
Wiki Evalは, 品質基準39の細粒度評価手法と, 事実検証性のための厳密な指標を含む総合的な評価フレームワークである。
論文 参考訳(メタデータ) (2026-02-02T03:30:13Z) - How Similar Are Grokipedia and Wikipedia? A Multi-Dimensional Textual and Structural Comparison [0.0]
イーロン・マスクのxAIが開発したAI生成百科事典であるGrokipediaは、ウィキペディアのイデオロギーと構造的偏見に対する反応として発表された。
本研究は,GrokipediaとWikipediaの1,800のマッチング記事の大規模比較を行った。
語彙的豊かさ,可読性,構造的構造,参照密度,意味的類似性にまたがる指標を用いて,両プラットフォームが形と実体の密接な整合性を評価する。
論文 参考訳(メタデータ) (2025-10-30T18:04:46Z) - Detecting Corpus-Level Knowledge Inconsistencies in Wikipedia with Large Language Models [11.16952630564181]
不整合, 特定の事実的不整合に着目し, コーパスレベルの不整合検出の課題を導入する。
本稿では,LLM推論と検索を組み合わせたエージェントシステムであるCLAIREについて述べる。
経験豊富なウィキペディア編集者によるユーザスタディでは、87.5%がCLAIREを使用する際の信頼性が高く、参加者は同じ時間内に64.7%の矛盾が見つかった。
論文 参考訳(メタデータ) (2025-09-27T10:32:41Z) - WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia [59.96425443250666]
Retrieval-augmented Generation (RAG) は,大規模言語モデル(LLM)の限界を緩和する,有望なソリューションとして登場した。
本研究では,ウィキペディアからの矛盾文に基づく質問に対するLLM生成回答の総合評価を行う。
我々は、単一のパスを持つRAGと2つの矛盾するパスを持つRAGを含む、様々なQAシナリオ下で、クローズドおよびオープンソース両方のLSMをベンチマークする。
論文 参考訳(メタデータ) (2024-06-19T20:13:42Z) - An Open Multilingual System for Scoring Readability of Wikipedia [3.992677070507323]
ウィキペディア記事の読みやすさを評価するための多言語モデルを開発した。
ウィキペディアから簡略化されたウィキペディアやオンラインの子供まで、14言語にまたがる新しい多言語データセットを作成します。
我々のモデルはゼロショットシナリオでよく機能し、14言語で80%以上のランキング精度が得られることを示す。
論文 参考訳(メタデータ) (2024-06-03T23:07:18Z) - A Glitch in the Matrix? Locating and Detecting Language Model Grounding with Fakepedia [57.31074448586854]
大規模言語モデル(LLM)は、そのコンテキストで提供される新しい情報を引き出すという印象的な能力を持つ。
しかし、この文脈的基盤のメカニズムはいまだに不明である。
本稿では,Fakepedia を用いたグラウンドディング能力の研究手法を提案する。
論文 参考訳(メタデータ) (2023-12-04T17:35:42Z) - Mapping Process for the Task: Wikidata Statements to Text as Wikipedia
Sentences [68.8204255655161]
本稿では,ウィキデータ文をウィキペディアのプロジェクト用自然言語テキスト(WS2T)に変換するタスクに対して,文レベルでのマッピングプロセスを提案する。
主なステップは、文を整理し、四つ組と三つ組のグループとして表現し、それらを英語のウィキペディアで対応する文にマッピングすることである。
文構造解析,ノイズフィルタリング,および単語埋め込みモデルに基づく文成分間の関係について,出力コーパスの評価を行った。
論文 参考訳(メタデータ) (2022-10-23T08:34:33Z) - WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions
from Paragraphs [66.88232442007062]
ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。
データセットは、6987のトピックに関する80万以上の英語サンプルで構成されている。
本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
論文 参考訳(メタデータ) (2022-09-27T01:28:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。