論文の概要: The Catastrophic Paradox of Human Cognitive Frameworks in Large Language Model Evaluation: A Comprehensive Empirical Analysis of the CHC-LLM Incompatibility
- arxiv url: http://arxiv.org/abs/2511.18302v1
- Date: Sun, 23 Nov 2025 05:49:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.758794
- Title: The Catastrophic Paradox of Human Cognitive Frameworks in Large Language Model Evaluation: A Comprehensive Empirical Analysis of the CHC-LLM Incompatibility
- Title(参考訳): 大規模言語モデル評価における認知的枠組みの破滅的パラドックス:CHC-LLM不適合性の包括的実証分析
- Authors: Mohan Reddy,
- Abstract要約: 平均的な人間のIQスコアを達成するモデルは、結晶化された知識タスクにおいてゼロに近づいた二分精度を同時に示す。
この切断は、結晶化されたインテリジェンス領域において最も強く現れる。
人工知能の非人間性を認識するネイティブマシン認識アセスメントを開発するための枠組みを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This investigation presents an empirical analysis of the incompatibility between human psychometric frameworks and Large Language Model evaluation. Through systematic assessment of nine frontier models including GPT-5, Claude Opus 4.1, and Gemini 3 Pro Preview using the Cattell-Horn-Carroll theory of intelligence, we identify a paradox that challenges the foundations of cross-substrate cognitive evaluation. Our results show that models achieving above-average human IQ scores ranging from 85.0 to 121.4 simultaneously exhibit binary accuracy rates approaching zero on crystallized knowledge tasks, with an overall judge-binary correlation of r = 0.175 (p = 0.001, n = 1800). This disconnect appears most strongly in the crystallized intelligence domain, where every evaluated model achieved perfect binary accuracy while judge scores ranged from 25 to 62 percent, which cannot occur under valid measurement conditions. Using statistical analyses including Item Response Theory modeling, cross-vendor judge validation, and paradox severity indexing, we argue that this disconnect reflects a category error in applying biological cognitive architectures to transformer-based systems. The implications extend beyond methodology to challenge assumptions about intelligence, measurement, and anthropomorphic biases in AI evaluation. We propose a framework for developing native machine cognition assessments that recognize the non-human nature of artificial intelligence.
- Abstract(参考訳): 本研究では,人間の心理測定フレームワークと大規模言語モデル評価の不適合性に関する実証分析を行った。
GPT-5, Claude Opus 4.1, Gemini 3 Pro Previewを含む9つのフロンティアモデルの系統的評価を通じて, クロスベース認知評価の基礎に挑戦するパラドックスを同定した。
以上の結果から, 平均値85.0から121.4までのモデルでは, r = 0.175 (p = 0.001, n = 1800) の判定・二項相関で, 結晶化知識タスクにおいてゼロに近づいた2値精度が同時に示された。
この解離は結晶化インテリジェンス領域において最も強く見られ、全ての評価されたモデルが完全なバイナリ精度を達成し、判定スコアは25から62%であり、有効な測定条件下では起こり得ない。
項目応答理論モデリング,クロスベンダ・ジャッジ・バリデーション,パラドックス・シヴァリティ・インデクシングなどの統計分析を用いて,この切断は生物認知アーキテクチャをトランスフォーマーベースシステムに適用する際のカテゴリー誤差を反映していると論じる。
この意味は、AI評価における知性、測定、人為的偏見に関する仮定に挑戦するために方法論を超えて拡張される。
人工知能の非人間性を認識するネイティブマシン認識アセスメントを開発するための枠組みを提案する。
関連論文リスト
- Cognitive Foundations for Reasoning and Their Manifestation in LLMs [63.12951576410617]
我々は認知科学研究を、計算制約、メタ認知制御、知識表現、変換操作にまたがる28の認知要素の分類学に合成する。
我々は、テキスト、視覚、オーディオのモダリティにまたがる17のモデルから、170Kのトレースを54の人間の思考情報トレースとともに、初めて大規模に分析した。
論文 参考訳(メタデータ) (2025-11-20T18:59:00Z) - AI Models Exceed Individual Human Accuracy in Predicting Everyday Social Norms [0.4666493857924357]
統計的学習だけで、大規模言語モデルが洗練された規範的理解を達成できるかどうかを考察する。
2つの研究を通して、人間の社会的適切性判定を予測できる複数のAIシステムの能力を評価する。
この予測力にもかかわらず、全てのモデルは体系的、相関的な誤りを示した。
論文 参考訳(メタデータ) (2025-08-26T13:03:56Z) - Measuring How LLMs Internalize Human Psychological Concepts: A preliminary analysis [0.0]
本研究では,大規模言語モデルと人間の心理的次元間の概念整合性を評価する枠組みを開発する。
GPT-4モデルは優れた分類精度(66.2%)を獲得し、GPT-3.5(55.9%)とBERT(48.1%)を大きく上回った。
以上の結果から,現代のLLMは人間の心理的構造を計測可能な精度で近似できることが示された。
論文 参考訳(メタデータ) (2025-06-29T01:56:56Z) - MetaQAP - A Meta-Learning Approach for Quality-Aware Pretraining in Image Quality Assessment [1.6274397329511194]
画像品質評価(IQA)は、幅広い応用において重要な課題であるが、人間の知覚の主観的性質と実世界の画像歪みの複雑さのため、依然として困難な課題である。
本研究は,品質に配慮した事前学習とメタ学習を活用することで,これらの課題に対処する新しい非参照IQAモデルであるMetaQAPを提案する。
提案したMetaQAPモデルではPearson Linear correlation Coefficient (PLCC) とSpearman Rank Order correlation Coefficient (SROCC) のスコアが0.9885/0.9812,Konで0.9702/0.9658で優れた性能を示した。
論文 参考訳(メタデータ) (2025-06-19T21:03:47Z) - Learning to Generate and Evaluate Fact-checking Explanations with Transformers [10.970249299147866]
XAI(Explainable Artificial Antelligence)の研究
我々は,人間のアクセス可能な説明を生成することによって,意思決定を文脈化し,正当化するトランスフォーマーベースの事実チェックモデルを開発した。
我々は人工知能(AI)による説明と人間の判断を一致させる必要性を強調した。
論文 参考訳(メタデータ) (2024-10-21T06:22:51Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Neural Causal Models for Counterfactual Identification and Estimation [62.30444687707919]
本稿では,ニューラルモデルによる反事実文の評価について検討する。
まず、神経因果モデル(NCM)が十分に表現可能であることを示す。
第2に,反事実分布の同時同定と推定を行うアルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-09-30T18:29:09Z) - Is Automated Topic Model Evaluation Broken?: The Incoherence of
Coherence [62.826466543958624]
トピックモデル評価における標準化のギャップと検証のギャップについて考察する。
これらの指標によると、最近のニューラルネットワークコンポーネントに依存したモデルは、古典的なトピックモデルを超えている。
我々は,話題評価と単語侵入という,最も広く受け入れられている2つの人間の判断タスクとともに,自動的コヒーレンスを用いる。
論文 参考訳(メタデータ) (2021-07-05T17:58:52Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。