論文の概要: Measure what Matters: Psychometric Evaluation of AI with Situational Judgment Tests
- arxiv url: http://arxiv.org/abs/2510.22170v1
- Date: Sat, 25 Oct 2025 05:45:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.898861
- Title: Measure what Matters: Psychometric Evaluation of AI with Situational Judgment Tests
- Title(参考訳): 問題を測定する:状況判断テストによるAIの心理的評価
- Authors: Alexandra Yost, Shreyans Jain, Shivam Raval, Grant Corser, Allen Roush, Nina Xu, Jacqueline Hammack, Ravid Shwartz-Ziv, Amirali Abdullah,
- Abstract要約: 本稿では,現実的なシナリオから状況判断テスト(SJT)を用いて,ドメイン固有の能力の探索を行うフレームワークを提案する。
11の属性にまたがる8つのペルソナアーチタイプとSJTにまたがるパーソナの豊富なデータセットを構築した。
データセットは8500のペルソナ、4000のSJT、30万のレスポンスに対応している。
- 参考スコア(独自算出の注目度): 37.108535991604576
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI psychometrics evaluates AI systems in roles that traditionally require emotional judgment and ethical consideration. Prior work often reuses human trait inventories (Big Five, \hexaco) or ad hoc personas, limiting behavioral realism and domain relevance. We propose a framework that (1) uses situational judgment tests (SJTs) from realistic scenarios to probe domain-specific competencies; (2) integrates industrial-organizational and personality psychology to design sophisticated personas which include behavioral and psychological descriptors, life history, and social and emotional functions; and (3) employs structured generation with population demographic priors and memoir inspired narratives, encoded with Pydantic schemas. In a law enforcement assistant case study, we construct a rich dataset of personas drawn across 8 persona archetypes and SJTs across 11 attributes, and analyze behaviors across subpopulation and scenario slices. The dataset spans 8,500 personas, 4,000 SJTs, and 300,000 responses. We will release the dataset and all code to the public.
- Abstract(参考訳): AI心理学は、感情的な判断と倫理的考慮を必要とする役割において、AIシステムを評価する。
以前の仕事は、人間の特性の在庫(Big Five, \hexaco)やアドホックなペルソナ(ad hoc personas)を再利用し、行動的リアリズムとドメイン関連性を制限することが多かった。
本研究では,(1)現実的なシナリオから状況判断テスト(SJT)を用いてドメイン固有の能力を探究する枠組みを提案し,(2)産業・組織・人格心理学を統合し,行動的・心理的記述や生活史,社会的・情緒的機能を含む洗練されたペルソナを設計する。
法執行機関のケーススタディでは、11の属性にまたがる8つのペルソナアーチタイプとSJTにまたがるパーソナの豊富なデータセットを構築し、サブポピュレーションとシナリオスライスにまたがる振る舞いを分析する。
データセットは8500のペルソナ、4000のSJT、30万のレスポンスに対応している。
データセットとすべてのコードを一般公開します。
関連論文リスト
- A Computational Framework for Interpretable Text-Based Personality Assessment from Social Media [0.0]
この論文では、Redditから収集された2つのデータセット(MBTI9kとPANDORA)を提示する。
PANDORAデータセットには、1万人以上のユーザーからの1700万のコメントが含まれている。
SIMPAフレームワークは人格評価を解釈するための計算フレームワークである。
論文 参考訳(メタデータ) (2025-10-03T08:36:36Z) - SENSE-7: Taxonomy and Dataset for Measuring User Perceptions of Empathy in Sustained Human-AI Conversations [13.232694774856931]
観察可能な共感行動を強調する人間中心の分類法を提案する。
我々は,情報労働者とLarge Language Models(LLMs)による実世界の会話のデータセットであるSense-7を紹介する。
109人の参加者による695の会話の分析から,共感の判断は高度に個人化され,文脈に敏感で,混乱に弱いことが判明した。
論文 参考訳(メタデータ) (2025-09-19T21:32:24Z) - Sentiment Simulation using Generative AI Agents [0.0]
本稿では、心理的に豊かなプロファイルを組み込んだ生成AIエージェントを用いた感情シミュレーションの枠組みを提案する。
エージェントは2,485人のフィリピン人回答者の全国代表による調査からインスタンス化されている。
我々の研究は、心理分析を基礎としたAIエージェントによる感情モデリングのためのスケーラブルなフレームワークを確立した。
論文 参考訳(メタデータ) (2025-05-28T08:50:56Z) - Twenty Years of Personality Computing: Threats, Challenges and Future Directions [76.46813522861632]
パーソナリティ・コンピューティング(Personality Computing)は、パーソナリティ心理学とコンピュータ科学の交差点にある分野である。
本稿では、その分野の概要を述べ、鍵となる方法論を探求し、課題と脅威について論じ、パーソナリティ・コンピューティング・テクノロジーの開発・展開における今後の方向性について概説する。
論文 参考訳(メタデータ) (2025-03-03T22:03:48Z) - Generative Agent Simulations of 1,000 People [56.82159813294894]
本稿では,1,052人の実人の態度と行動をシミュレートする新しいエージェントアーキテクチャを提案する。
生成エージェントは一般社会調査の参加者の回答を85%の精度で再現する。
我々のアーキテクチャは、人種的およびイデオロギー的グループにおける正確さのバイアスを、人口統計学的記述のエージェントと比較して低減する。
論文 参考訳(メタデータ) (2024-11-15T11:14:34Z) - Evaluating Large Language Models with Psychometrics [59.821829073478376]
本稿では,Large Language Models (LLMs) の心理的構造を定量化するための総合的ベンチマークを提案する。
私たちの研究は、13のデータセットで評価された5つの重要な心理的構成要素、人格、価値観、感情的知性、心の理論、自己効力性を特定します。
LLMの自己報告特性と実際のシナリオにおける応答パターンとの間に大きな相違が発見され,その挙動の複雑さが明らかになった。
論文 参考訳(メタデータ) (2024-06-25T16:09:08Z) - PsyMo: A Dataset for Estimating Self-Reported Psychological Traits from
Gait [4.831663144935878]
PsyMoは、歩行パターンに現れる心理的手がかりを探索するための、新しく、多目的かつマルチモーダルなデータセットである。
被験者312名から7種類の歩行変化と6種類のカメラアングルで歩行シーケンスを収集した。
被験者は歩数と合わせて6つの心理的質問紙に記入し,性格,自尊心,疲労,攻撃性,精神的健康に関連する17の心理指標を集計した。
論文 参考訳(メタデータ) (2023-08-21T11:06:43Z) - Emotionally Numb or Empathetic? Evaluating How LLMs Feel Using EmotionBench [83.41621219298489]
心理学からの感情評価理論を用いて,Large Language Models (LLMs) の人為的能力を評価する。
我々は、研究の中心となる8つの感情を引き出すのに有効な400以上の状況を含むデータセットを収集した。
我々は世界中の1200人以上の被験者を対象に人間による評価を行った。
論文 参考訳(メタデータ) (2023-08-07T15:18:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。