論文の概要: Epidemiology of Large Language Models: A Benchmark for Observational Distribution Knowledge
- arxiv url: http://arxiv.org/abs/2511.03070v1
- Date: Tue, 04 Nov 2025 23:34:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.273351
- Title: Epidemiology of Large Language Models: A Benchmark for Observational Distribution Knowledge
- Title(参考訳): 大規模言語モデルの疫学:観測分布知識のベンチマーク
- Authors: Drago Plecko, Patrik Okanovic, Torsten Hoefler, Elias Bareinboim,
- Abstract要約: 我々のゴールは、実世界を記述する確率分布の知識の観点から、LLMの能力を理解するためのベンチマークを構築することである。
以上の結果から,LLMは全体の性能が悪く,実世界の統計を自然に内在化していないことが示唆された。
- 参考スコア(独自算出の注目度): 69.50062870487349
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Artificial intelligence (AI) systems hold great promise for advancing various scientific disciplines, and are increasingly used in real-world applications. Despite their remarkable progress, further capabilities are expected in order to achieve more general types of intelligence. A critical distinction in this context is between factual knowledge, which can be evaluated against true or false answers (e.g., "what is the capital of England?"), and probabilistic knowledge, reflecting probabilistic properties of the real world (e.g., "what is the sex of a computer science graduate in the US?"). In this paper, our goal is to build a benchmark for understanding the capabilities of LLMs in terms of knowledge of probability distributions describing the real world. Given that LLMs are trained on vast amounts of text, it may be plausible that they internalize aspects of these distributions. Indeed, LLMs are touted as powerful universal approximators of real-world distributions. At the same time, classical results in statistics, known as curse of dimensionality, highlight fundamental challenges in learning distributions in high dimensions, challenging the notion of universal distributional learning. In this work, we develop the first benchmark to directly test this hypothesis, evaluating whether LLMs have access to empirical distributions describing real-world populations across domains such as economics, health, education, and social behavior. Our results demonstrate that LLMs perform poorly overall, and do not seem to internalize real-world statistics naturally. When interpreted in the context of Pearl's Causal Hierarchy (PCH), our benchmark demonstrates that language models do not contain knowledge on observational distributions (Layer 1 of PCH), and thus the Causal Hierarchy Theorem implies that interventional (Layer 2) and counterfactual (Layer 3) knowledge of these models is also limited.
- Abstract(参考訳): 人工知能(AI)システムは、様々な科学分野を前進させる大きな可能性を秘めており、現実世界の応用でますます使われている。
その顕著な進歩にもかかわらず、より一般的なインテリジェンスを達成するために、さらなる能力が期待されている。
この文脈における批判的な区別は、事実的知識と、実世界の確率的特性を反映する確率的知識(例えば、「米国のコンピュータサイエンス卒業生のセックスとは何か?
本稿では,実世界を記述する確率分布の知識の観点から,LLMの能力を理解するためのベンチマークを構築することを目的とする。
LLMは大量のテキストで訓練されているので、これらの分布の側面を内在化することが妥当である。
実際、LLMは現実世界の分布の強力な普遍近似器として評価されている。
同時に、次元の呪いとして知られる統計学の古典的な結果は、高次元における分布の学習における根本的な課題を強調し、普遍的な分布学習の概念に挑戦する。
本研究では、この仮説を直接検証する最初のベンチマークを開発し、LLMが、経済、健康、教育、社会行動などの領域にまたがる実世界の人口を記述した経験的分布にアクセスできるかどうかを評価する。
以上の結果から,LLMは全体の性能が悪く,実世界の統計を自然に内在化していないことが示唆された。
Perl's Causal Hierarchy (PCH) の文脈で解釈すると、我々のベンチマークは言語モデルが観測分布に関する知識を含まないことを示す(PCHのLayer 1)。
2)と対策(レイヤー)
3) これらのモデルの知識も限られている。
関連論文リスト
- Remembering Unequally: Global and Disciplinary Bias in LLM-Generated Co-Authorship Networks [3.179831861897336]
本研究では,Large Language Models (LLM) が共著者ネットワークに与える影響について検討する。
我々は、DeepSeek R1、Llama 4 Scout、Mixtral 8x7Bの3つの著名なモデルにおける効果を評価する。
我々のグローバル分析では、高度に引用された研究者に有利な一貫したバイアスが明らかになっているが、このパターンは均一に観察されていない。
臨床医学などの特定の分野や、アフリカの一部を含む地域は、よりバランスの取れた表現を示している。
論文 参考訳(メタデータ) (2025-11-01T10:05:43Z) - WorldLLM: Improving LLMs' world modeling using curiosity-driven theory-making [17.8062839646513]
LLM(Large Language Models)は、一般的な世界知識を持つが、シミュレーションのような構造化されたドメイン固有のコンテキストにおいて、正確な予測を生成するのに苦労することが多い。
本稿では,ベイジアン推論と自律能動探索と強化学習を組み合わせることで,LLMに基づく世界モデリングを促進するフレームワークWorldLLMを提案する。
論文 参考訳(メタデータ) (2025-06-07T09:13:34Z) - Truly Assessing Fluid Intelligence of Large Language Models through Dynamic Reasoning Evaluation [106.17986469245302]
大きな言語モデル(LLM)は、人間のような思考を反映する印象的な推論能力を示している。
既存の推論ベンチマークでは、ドメイン固有の知識(結晶化インテリジェンス)に焦点を当てるか、解釈可能性に欠ける。
階層的認知フレームワークを基盤とした動的推論評価ベンチマークであるDRE-Benchを提案する。
論文 参考訳(メタデータ) (2025-06-03T09:01:08Z) - Bayesian Teaching Enables Probabilistic Reasoning in Large Language Models [54.38054999271322]
我々は,大規模言語モデル (LLM) がベイジアンフレームワークから期待されているように,彼らの信念を更新しないことを示す。
我々は、標準ベイズモデルの予測を模倣するように訓練することで、ベイズ的方法による推論をLLMに教える。
より一般的には,LLMは実例から推論スキルを効果的に学習し,それらのスキルを新しいドメインに一般化できることを示す。
論文 参考訳(メタデータ) (2025-03-21T20:13:04Z) - Unveiling LLMs: The Evolution of Latent Representations in a Dynamic Knowledge Graph [15.129079475322637]
この研究は、大規模言語モデルが文レベルのクレーム検証のために内部的に表現する事実情報を明らかにする。
本稿では,トークン表現に埋め込まれた事実知識をベクトル空間から基底述語集合にデコードするエンド・ツー・エンドのフレームワークを提案する。
本フレームワークでは,推論中にトークン表現を変更するベクトルレベル手法であるアクティベーションパッチを用いて,符号化された知識を抽出する。
論文 参考訳(メタデータ) (2024-04-04T17:45:59Z) - Brain in a Vat: On Missing Pieces Towards Artificial General
Intelligence in Large Language Models [83.63242931107638]
本稿では,知的エージェントの4つの特徴について述べる。
実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。
我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
論文 参考訳(メタデータ) (2023-07-07T13:58:16Z) - Event knowledge in large language models: the gap between the impossible
and the unlikely [46.540380831486125]
我々は,事前学習された大規模言語モデル (LLM) がイベント知識を持つことを示す。
彼らはほぼ常に、不可能な事象に対して高い確率を割り当てる。
しかし、おそらくは起こりそうもない出来事に対して、一貫性のない選好を示す。
論文 参考訳(メタデータ) (2022-12-02T23:43:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。