論文の概要: SCRuB: Social Concept Reasoning under Rubric-Based Evaluation
- arxiv url: http://arxiv.org/abs/2605.06444v1
- Date: Thu, 07 May 2026 15:43:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.952357
- Title: SCRuB: Social Concept Reasoning under Rubric-Based Evaluation
- Title(参考訳): SCRuB:ルブリックに基づく社会概念推論
- Authors: Jamelle Watson-Daniels, Himaghna Bhattacharjee, Skyler Wang, Brandon Handoko, Antonio Li, Anaelia Ovalle, Mahesh Pasupuleti, Candace Ross, Vidya Sarma, Arjun Subramonian, Karen Ullrich, Will van der Vaart, Yijing Xin, Maximilian Nickel,
- Abstract要約: SCRuB(Social Concept Reasoning Under-authored Evaluation Perspectives)は,タスクの不確定性の設定を目的としたフレームワークである。
我々のゴールは、人間の専門知識の深みと批判的厳密さによって、社会概念に関するモデル的理由がどの程度になるかを測定することである。
我々の結果は、フロンティアモデルが5次元すべてで人間の専門家より一貫して優れていることを示している。
- 参考スコア(独自算出の注目度): 18.04279435879135
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While many studies of Large Language Model (LLM) reasoning capabilities emphasize mathematical or technical tasks, few address reasoning about social concepts: the abstract ideas shaping social norms, culture, and institutions. This understudied capability is essential for modern models acting as social agents, yet no systematic evaluation methodology targets it. We introduce SCRuB (Social Concept Reasoning under Rubric-Based Evaluation), a framework designed for this setting of task indeterminacy. Our goal is to measure the degree to which a model reasons about social concepts with the depth and critical rigor of a human expert. SCRuB proceeds in three phases: prompt construction from established sources, response generation by experts and models, and comparative evaluation using a five-dimensional critical thinking rubric. To enable generalization of the pipeline, we introduce a Panel of Disciplinary Perspectives ensemble validated against independent expert judges. We release SCRuBEval (n=4,711 evaluation prompts) and SCRuBAnnotations (300 expert-authored responses and 150 expert comparative judgments from 45 PhD-level scholars). Our results show that frontier models consistently outperform human experts across all five rubric dimensions. Across 1,170 pairwise comparisons, expert judges ranked a model response first in 80.8% of judgments and preferred model responses overall 74.4% of the time. Ultimately, this study provides the first expert-grounded demonstration of evaluation saturation for social concept reasoning: the single-turn exam-style format has reached its ceiling for models and humans alike.
- Abstract(参考訳): 大規模言語モデル(LLM)推論能力の多くの研究は数学的または技術的タスクを強調しているが、社会概念に関する推論(抽象的な概念が社会規範、文化、制度を形成する)に対処するものはほとんどない。
この能力は、社会的エージェントとして機能する現代のモデルには欠かせないが、体系的な評価手法がそれを対象としない。
SCRuB(Social Concept Reasoning under Rubric-Based Evaluation)は,タスクの不確定性の設定を目的としたフレームワークである。
我々のゴールは、人間の専門知識の深みと批判的厳密さによって、社会概念に関するモデル的理由がどの程度になるかを測定することである。
SCRuBは、確立された情報源からの迅速な構築、専門家とモデルによる応答生成、および5次元批判的思考ルーブリックを用いた比較評価の3段階で進行する。
パイプラインの一般化を実現するために,独立した専門家の審査員に対して検証された学際的視点のアンサンブルのパネルを導入する。
SCRuBEval(n=4,711評価プロンプト)とSCRuBAnnotations(300名の専門家による回答と45名の博士レベルの学者による150名の専門家による評価)を公表する。
以上の結果から,フロンティアモデルは5つのルーリック次元すべてにおいて,常に人間専門家より優れていたことが示唆された。
1,170対の比較で、専門家の審査員は80.8%の判断でまずモデル反応をランク付けし、全体の74.4%がモデル反応を好んだ。
究極的には、この研究は、社会概念推論のための評価飽和のエキスパートによる最初のデモンストレーションを提供する: シングルターン試験スタイルのフォーマットは、モデルや人間も同様に天井に達した。
関連論文リスト
- SAVOIR: Learning Social Savoir-Faire via Shapley-based Reward Attribution [82.31558282651811]
複雑な対人相互作用をナビゲートするソーシャルインテリジェンスは、言語エージェントに根本的な課題を提示する。
既存のアプローチでは、言語モデルを直接使用してエピソードレベルの報酬を分配する。
協調ゲーム理論に基づく新しい原理的枠組みであるSAVOIRを提案する。
論文 参考訳(メタデータ) (2026-04-21T02:08:25Z) - How AI Systems Think About Education: Analyzing Latent Preference Patterns in Large Language Models [0.0]
本稿では,大規模言語モデルにおける教育的アライメントの最初の体系的測定について述べる。
8つの教育理論次元にわたる48項目からなるデルフィ価楽器を用いて、GPT-5.1は高いコヒーレントな嗜好パターンを示すことが明らかとなった。
論文 参考訳(メタデータ) (2026-02-28T12:49:48Z) - InnoEval: On Research Idea Evaluation as a Knowledge-Grounded, Multi-Perspective Reasoning Problem [87.30601926271864]
InnoEvalは、人間レベルのアイデアアセスメントをエミュレートするために設計された、深いイノベーション評価フレームワークである。
我々は,多様なオンライン情報源から動的証拠を検索し,根拠とする異種深層知識検索エンジンを適用した。
InnoEvalをベンチマークするために、権威あるピアレビューされた提案から派生した包括的なデータセットを構築します。
論文 参考訳(メタデータ) (2026-02-16T00:40:31Z) - AI Judges in Design: Statistical Perspectives on Achieving Human Expert Equivalence With Vision-Language Models [3.092385483349516]
本稿では、AI審査員のレーティングが人間の専門家のレーティングと一致するかどうかを判断する厳密な統計枠組みを提案する。
この枠組みを,VLMに基づく4人の審査員を主要な設計基準で評価するケーススタディに適用する。
その結果,トップパフォーマンスのAI審査員は,一意性や描画品質に関する専門家レベルの合意を達成できることがわかった。
論文 参考訳(メタデータ) (2025-04-01T16:20:29Z) - HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。
HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。
本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文 参考訳(メタデータ) (2024-12-20T03:26:47Z) - Towards Unifying Evaluation of Counterfactual Explanations: Leveraging Large Language Models for Human-Centric Assessments [0.7852714805965528]
206人の回答者から8つの評価指標にまたがって、30のカウンターファクトのシナリオを作成し、評価を収集する。
これらの指標で平均的または個人的判断を予測するために、さまざまな大規模言語モデルを微調整しました。
論文 参考訳(メタデータ) (2024-10-28T15:33:37Z) - ConSiDERS-The-Human Evaluation Framework: Rethinking Human Evaluation for Generative Large Language Models [53.00812898384698]
生成型大規模言語モデル(LLM)の人間による評価は多分野にわたる作業であるべきだと論じる。
認知バイアスが、流動的な情報や真理をいかに説明するか、そして、認識の不確実性が、Likertのような評価スコアの信頼性にどのように影響するかを強調します。
本稿では,ConSiDERS-The-Human評価フレームワークを提案する。一貫性,スコーリング基準,差別化,ユーザエクスペリエンス,責任,スケーラビリティの6つの柱からなる。
論文 参考訳(メタデータ) (2024-05-28T22:45:28Z) - AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models [122.63704560157909]
我々は,人間中心の標準化試験の文脈で基礎モデルを評価するために設計された新しいベンチマークであるAGIEvalを紹介する。
GPT-4, ChatGPT, Text-Davinci-003 など,最先端基盤モデルの評価を行った。
GPT-4はSAT、LSAT、数学の競争で平均的な人事成績を上回り、SAT Mathテストでは95%の精度で、中国国立大学入試では92.5%の精度で合格している。
論文 参考訳(メタデータ) (2023-04-13T09:39:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。