論文の概要: Theory Trace Card: Theory-Driven Socio-Cognitive Evaluation of LLMs
- arxiv url: http://arxiv.org/abs/2601.01878v1
- Date: Mon, 05 Jan 2026 08:06:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.854748
- Title: Theory Trace Card: Theory-Driven Socio-Cognitive Evaluation of LLMs
- Title(参考訳): 理論トレースカード:理論駆動型LLMの社会認知評価
- Authors: Farzan Karimi-Malekabadi, Suhaib Abdurahman, Zhivar Sourati, Jackson Trager, Morteza Dehghani,
- Abstract要約: 多くの社会的認知的評価は、目標能力の明確な理論的な仕様なしで進行していると論じる。
この理論的な根拠がなければ、能力の狭い部分集合のみを行使するベンチマークは、広範能力の証拠として日常的に誤解される。
本稿では,社会認知評価に付随する軽量なドキュメントアーティファクトであるTrace Cardを紹介する。
- 参考スコア(独自算出の注目度): 2.98033672654447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Socio-cognitive benchmarks for large language models (LLMs) often fail to predict real-world behavior, even when models achieve high benchmark scores. Prior work has attributed this evaluation-deployment gap to problems of measurement and validity. While these critiques are insightful, we argue that they overlook a more fundamental issue: many socio-cognitive evaluations proceed without an explicit theoretical specification of the target capability, leaving the assumptions linking task performance to competence implicit. Without this theoretical grounding, benchmarks that exercise only narrow subsets of a capability are routinely misinterpreted as evidence of broad competence: a gap that creates a systemic validity illusion by masking the failure to evaluate the capability's other essential dimensions. To address this gap, we make two contributions. First, we diagnose and formalize this theory gap as a foundational failure that undermines measurement and enables systematic overgeneralization of benchmark results. Second, we introduce the Theory Trace Card (TTC), a lightweight documentation artifact designed to accompany socio-cognitive evaluations, which explicitly outlines the theoretical basis of an evaluation, the components of the target capability it exercises, its operationalization, and its limitations. We argue that TTCs enhance the interpretability and reuse of socio-cognitive evaluations by making explicit the full validity chain, which links theory, task operationalization, scoring, and limitations, without modifying benchmarks or requiring agreement on a single theory.
- Abstract(参考訳): 大規模言語モデル(LLM)の社会認知ベンチマークは、たとえモデルが高いベンチマークスコアを得たとしても、現実の振る舞いを予測できないことが多い。
以前の研究は、この評価とデプロイのギャップを測定と妥当性の問題に起因している。
これらの批判は洞察に富んでいるが、より根本的な問題を見落としていると我々は論じている。多くの社会的認知的評価は、目標能力の明確な理論的仕様なしで進行し、タスクパフォーマンスを暗黙の能力にリンクする仮定を残している。
この理論的な根拠がなければ、ある能力の狭い部分集合のみを行使するベンチマークは、通常、幅広い能力の証拠として誤解される。
このギャップに対処するため、私たちは2つのコントリビューションを行います。
まず、この理論ギャップを、測定を弱め、ベンチマーク結果の体系的な過一般化を可能にする基礎的失敗として診断し、形式化する。
第2に,社会認知評価に付随して設計された軽量ドキュメンテーションである理論トレースカード(TTC)を紹介する。
我々は、TTCは、ベンチマークの変更や単一理論の合意の必要なしに、理論、タスクの運用、スコアリング、制限をリンクする完全な妥当性チェーンを明示することにより、社会認知評価の解釈可能性と再利用を高めることを論じる。
関連論文リスト
- PRISM-Physics: Causal DAG-Based Process Evaluation for Physics Reasoning [57.868248683256574]
PRISM-Physicsはプロセスレベルの評価フレームワークであり、複雑な物理推論問題のベンチマークである。
解は公式の有向非巡回グラフ(DAG)として表される。
その結果,評価フレームワークは人的専門家のスコアと一致していることがわかった。
論文 参考訳(メタデータ) (2025-10-03T17:09:03Z) - What Expressivity Theory Misses: Message Passing Complexity for GNNs [51.20749443004513]
我々は、ほとんどの実世界のタスクにおいて高い表現性は必要ないと論じ、基本的なWLテスト以上の表現性はめったに要求されない。
本稿では,GNNアーキテクチャがメッセージパッシングによって与えられたタスクを解くことの難しさを定量化する手法であるMessage Passing Complexity (MPC)を提案する。
MPCは、表現性理論による理論上の不合理性を保ちながら、オーバースカッシングのような現実的な限界を捉えている。
論文 参考訳(メタデータ) (2025-09-01T08:44:49Z) - Towards Analyzing and Understanding the Limitations of VAPO: A Theoretical Perspective [6.963986923957048]
VAPOは、大規模言語モデルの強化学習のためのフレームワークである。
これは、値モデルバイアス、不均一なシーケンス長、スパース報酬信号といった課題に対処する。
本稿では,理論的な観点からVAPOを考察し,その仮定が課題となる分野を明らかにする。
論文 参考訳(メタデータ) (2025-05-23T15:03:41Z) - Kolmogorov-Arnold Networks: A Critical Assessment of Claims, Performance, and Practical Viability [5.871394981352996]
Kolmogorov-Arnold Networks (KAN) は、従来の多層パーセプトロンに代わるものとして注目されている。
しかし、近年の体系的な評価は、理論的主張と経験的証拠の間にはかなりの相違が見られる。
論文 参考訳(メタデータ) (2024-07-13T04:29:36Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。