論文の概要: Theory Trace Card: Theory-Driven Socio-Cognitive Evaluation of LLMs
- arxiv url: http://arxiv.org/abs/2601.01878v1
- Date: Mon, 05 Jan 2026 08:06:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.854748
- Title: Theory Trace Card: Theory-Driven Socio-Cognitive Evaluation of LLMs
- Title(参考訳): 理論トレースカード:理論駆動型LLMの社会認知評価
- Authors: Farzan Karimi-Malekabadi, Suhaib Abdurahman, Zhivar Sourati, Jackson Trager, Morteza Dehghani,
- Abstract要約: 多くの社会的認知的評価は、目標能力の明確な理論的な仕様なしで進行していると論じる。
この理論的な根拠がなければ、能力の狭い部分集合のみを行使するベンチマークは、広範能力の証拠として日常的に誤解される。
本稿では,社会認知評価に付随する軽量なドキュメントアーティファクトであるTrace Cardを紹介する。
- 参考スコア(独自算出の注目度): 2.98033672654447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Socio-cognitive benchmarks for large language models (LLMs) often fail to predict real-world behavior, even when models achieve high benchmark scores. Prior work has attributed this evaluation-deployment gap to problems of measurement and validity. While these critiques are insightful, we argue that they overlook a more fundamental issue: many socio-cognitive evaluations proceed without an explicit theoretical specification of the target capability, leaving the assumptions linking task performance to competence implicit. Without this theoretical grounding, benchmarks that exercise only narrow subsets of a capability are routinely misinterpreted as evidence of broad competence: a gap that creates a systemic validity illusion by masking the failure to evaluate the capability's other essential dimensions. To address this gap, we make two contributions. First, we diagnose and formalize this theory gap as a foundational failure that undermines measurement and enables systematic overgeneralization of benchmark results. Second, we introduce the Theory Trace Card (TTC), a lightweight documentation artifact designed to accompany socio-cognitive evaluations, which explicitly outlines the theoretical basis of an evaluation, the components of the target capability it exercises, its operationalization, and its limitations. We argue that TTCs enhance the interpretability and reuse of socio-cognitive evaluations by making explicit the full validity chain, which links theory, task operationalization, scoring, and limitations, without modifying benchmarks or requiring agreement on a single theory.
- Abstract(参考訳): 大規模言語モデル(LLM)の社会認知ベンチマークは、たとえモデルが高いベンチマークスコアを得たとしても、現実の振る舞いを予測できないことが多い。
以前の研究は、この評価とデプロイのギャップを測定と妥当性の問題に起因している。
これらの批判は洞察に富んでいるが、より根本的な問題を見落としていると我々は論じている。多くの社会的認知的評価は、目標能力の明確な理論的仕様なしで進行し、タスクパフォーマンスを暗黙の能力にリンクする仮定を残している。
この理論的な根拠がなければ、ある能力の狭い部分集合のみを行使するベンチマークは、通常、幅広い能力の証拠として誤解される。
このギャップに対処するため、私たちは2つのコントリビューションを行います。
まず、この理論ギャップを、測定を弱め、ベンチマーク結果の体系的な過一般化を可能にする基礎的失敗として診断し、形式化する。
第2に,社会認知評価に付随して設計された軽量ドキュメンテーションである理論トレースカード(TTC)を紹介する。
我々は、TTCは、ベンチマークの変更や単一理論の合意の必要なしに、理論、タスクの運用、スコアリング、制限をリンクする完全な妥当性チェーンを明示することにより、社会認知評価の解釈可能性と再利用を高めることを論じる。
関連論文リスト
- Understanding Self-supervised Contrastive Learning through Supervised Objectives [2.0305676256390934]
我々は,自己教師付き表現学習を,教師付き表現学習目標に対する近似として定式化する。
我々の導出は、自然にプロトタイプ表現バイアスとバランスの取れた対照的な損失の概念を導入します。
正対相互作用と負対相互作用のバランス効果を実証的に検証する。
論文 参考訳(メタデータ) (2025-10-12T12:43:03Z) - PRISM-Physics: Causal DAG-Based Process Evaluation for Physics Reasoning [57.868248683256574]
PRISM-Physicsはプロセスレベルの評価フレームワークであり、複雑な物理推論問題のベンチマークである。
解は公式の有向非巡回グラフ(DAG)として表される。
その結果,評価フレームワークは人的専門家のスコアと一致していることがわかった。
論文 参考訳(メタデータ) (2025-10-03T17:09:03Z) - What Expressivity Theory Misses: Message Passing Complexity for GNNs [51.20749443004513]
我々は、ほとんどの実世界のタスクにおいて高い表現性は必要ないと論じ、基本的なWLテスト以上の表現性はめったに要求されない。
本稿では,GNNアーキテクチャがメッセージパッシングによって与えられたタスクを解くことの難しさを定量化する手法であるMessage Passing Complexity (MPC)を提案する。
MPCは、表現性理論による理論上の不合理性を保ちながら、オーバースカッシングのような現実的な限界を捉えている。
論文 参考訳(メタデータ) (2025-09-01T08:44:49Z) - When Is Prior Knowledge Helpful? Exploring the Evaluation and Selection of Unsupervised Pretext Tasks from a Neuro-Symbolic Perspective [45.419765404078724]
我々は、信頼できない知識のシナリオまで、信頼できる知識に基づくネッシー理論を拡張した。
そこで本稿では,これらの理論的メトリクスを運用するためのスキームを提案し,プリテキストタスクの有効性を事前に予測できる手法を開発した。
論文 参考訳(メタデータ) (2025-08-10T11:23:36Z) - Towards Analyzing and Understanding the Limitations of VAPO: A Theoretical Perspective [6.963986923957048]
VAPOは、大規模言語モデルの強化学習のためのフレームワークである。
これは、値モデルバイアス、不均一なシーケンス長、スパース報酬信号といった課題に対処する。
本稿では,理論的な観点からVAPOを考察し,その仮定が課題となる分野を明らかにする。
論文 参考訳(メタデータ) (2025-05-23T15:03:41Z) - Measurement to Meaning: A Validity-Centered Framework for AI Evaluation [12.55408229639344]
我々は、利用可能な証拠から得られる評価的クレームのタイプを推論するための構造化されたアプローチを提供する。
私たちのフレームワークは、機械学習の現代的なパラダイムに適しています。
論文 参考訳(メタデータ) (2025-05-13T20:36:22Z) - Computational Reasoning of Large Language Models [51.629694188014064]
textbfTuring Machine Benchは,Large Language Models(LLM)による推論プロセスの実行能力を評価するベンチマークである。
TMBenchには、自己完結型および知識に依存しない推論、最小主義的な多段階構造、制御可能な難易度、チューリングマシンに基づく理論的基礎の4つの重要な特徴が組み込まれている。
論文 参考訳(メタデータ) (2025-04-29T13:52:47Z) - The Curse of CoT: On the Limitations of Chain-of-Thought in In-Context Learning [56.574829311863446]
CoT(Chain-of-Thought)プロンプトは,大規模言語モデル(LLM)における推論能力の向上によって広く認識されている。
我々は、CoTとその推論変異が、様々なモデルスケールやベンチマークの複雑さに対して、直接応答を一貫して過小評価していることを実証する。
パターンベースICLにおけるCoTの性能を駆動する明示的単純推論の基本的なハイブリッド機構を明らかにする。
論文 参考訳(メタデータ) (2025-04-07T13:51:06Z) - Explore Theory of Mind: Program-guided adversarial data generation for theory of mind reasoning [88.68573198200698]
本研究では,多様で挑戦的な心的データ理論を大規模に生成するための最初のフレームワークであるExploreToMを紹介する。
我々のアプローチは、A*検索をカスタムドメイン特化言語に利用して、複雑なストーリ構造と、新しく、多様だが、もっともらしいシナリオを生成します。
評価の結果,Llama-3.1-70B や GPT-4o などの最先端 LLM はExploreToM 生成データに対して0%,9% の精度を示した。
論文 参考訳(メタデータ) (2024-12-12T21:29:00Z) - Kolmogorov-Arnold Networks: A Critical Assessment of Claims, Performance, and Practical Viability [5.871394981352996]
Kolmogorov-Arnold Networks (KAN) は、従来の多層パーセプトロンに代わるものとして注目されている。
しかし、近年の体系的な評価は、理論的主張と経験的証拠の間にはかなりの相違が見られる。
論文 参考訳(メタデータ) (2024-07-13T04:29:36Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。
提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。
複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文 参考訳(メタデータ) (2023-06-09T08:30:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。