論文の概要: A validity-guided workflow for robust large language model research in psychology
- arxiv url: http://arxiv.org/abs/2507.04491v1
- Date: Sun, 06 Jul 2025 18:06:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.207667
- Title: A validity-guided workflow for robust large language model research in psychology
- Title(参考訳): 心理学におけるロバストな大言語モデル研究のための妥当性誘導ワークフロー
- Authors: Zhicheng Lin,
- Abstract要約: 大規模言語モデル(LLM)は、研究ツール、評価対象、人間のシミュレータ、認知モデルとして、心理学研究に急速に統合されている。
これらの「測定幻覚」は、統計的成果を心理学的現象として生み出すもので、成長する研究機関の妥当性を損なうものである。
精神測定と因果推論を統合した二重正当性フレームワークによって導かれた6段階のワークフローで、妥当性要件を研究野心に拡張する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are rapidly being integrated into psychological research as research tools, evaluation targets, human simulators, and cognitive models. However, recent evidence reveals severe measurement unreliability: Personality assessments collapse under factor analysis, moral preferences reverse with punctuation changes, and theory-of-mind accuracy varies widely with trivial rephrasing. These "measurement phantoms"--statistical artifacts masquerading as psychological phenomena--threaten the validity of a growing body of research. Guided by the dual-validity framework that integrates psychometrics with causal inference, we present a six-stage workflow that scales validity requirements to research ambition--using LLMs to code text requires basic reliability and accuracy, while claims about psychological properties demand comprehensive construct validation. Researchers must (1) explicitly define their research goal and corresponding validity requirements, (2) develop and validate computational instruments through psychometric testing, (3) design experiments that control for computational confounds, (4) execute protocols with transparency, (5) analyze data using methods appropriate for non-independent observations, and (6) report findings within demonstrated boundaries and use results to refine theory. We illustrate the workflow through an example of model evaluation--"LLM selfhood"--showing how systematic validation can distinguish genuine computational phenomena from measurement artifacts. By establishing validated computational instruments and transparent practices, this workflow provides a path toward building a robust empirical foundation for AI psychology research.
- Abstract(参考訳): 大規模言語モデル(LLM)は、研究ツール、評価対象、人間のシミュレータ、認知モデルとして、心理学研究に急速に統合されている。
個人性評価は因子分析の下で崩壊し、道徳的嗜好は句読的変化とともに逆転し、自明な言い換えで、理論・オブ・ミンドの精度は広範囲に及んでいる。
これらの「測定幻覚」は、統計的成果を心理学的な現象とみなし、成長する研究機関の妥当性を損なうものである。
心的指標と因果推論を統合した二重正当性フレームワークによって導かれる6段階のワークフローを提示する。このワークフローは、心的特性に関する主張が包括的構成検証を必要とするのに対して、LLMをコードテキストに使用するには基本的な信頼性と正確性が必要である。
1)研究目標とそれに対応する妥当性要件を明確に定義すること,(2)心理測定テストによる計算機器の開発と評価,(3)計算コンファウンドの制御を行う設計実験,(4)透過性のあるプロトコルの実行,(5)非独立観測に適した手法を用いたデータ分析,(6)実証された境界内での報告結果と理論の精査のための結果。
このワークフローをモデル評価の例「LLMselfhood」を用いて説明する。
検証済みの計算機器と透明なプラクティスを確立することで、このワークフローは、AI心理学研究のための堅牢な経験的基盤を構築するための道筋を提供する。
関連論文リスト
- AICO: Feature Significance Tests for Supervised Learning [0.5142666700569699]
本稿では,任意の回帰アルゴリズムや分類アルゴリズムにおける入力特徴の影響を評価するために,モデルおよび分布に依存しない重要度テストを開発する。
我々は、この中央値に対して一様に強力でランダムな符号テストを構築し、特徴量と信頼区間を評価するための正確なp値を得る。
合成タスクの実験は、その統計的および計算上の利点を検証し、実世界のデータへの適用は、その実用性を示している。
論文 参考訳(メタデータ) (2025-06-29T21:15:40Z) - From Prompts to Constructs: A Dual-Validity Framework for LLM Research in Psychology [0.0]
我々は、AI心理学の堅牢な科学を構築するには、信頼度測定の原則と音因推論の標準を統合する必要があると論じる。
我々は、この統合を導くための二重正当性フレームワークを提案し、このフレームワークは、主張を支持するために必要な証拠が、その科学的野心によってどのようにスケールするかを明確にする。
論文 参考訳(メタデータ) (2025-06-20T02:38:42Z) - Humanizing LLMs: A Survey of Psychological Measurements with Tools, Datasets, and Human-Agent Applications [25.38031971196831]
大規模言語モデル(LLM)は、人間中心のタスクでますます使われるようになっている。
彼らの心理的特徴を評価することは、彼らの社会的影響を理解し、信頼できるAIアライメントを確保するために不可欠である。
本研究は,LLMのより解釈しやすく,堅牢で,一般化可能な心理的アセスメントフレームワークを開発するための今後の方向性を提案することを目的とする。
論文 参考訳(メタデータ) (2025-04-30T06:09:40Z) - FACT-AUDIT: An Adaptive Multi-Agent Framework for Dynamic Fact-Checking Evaluation of Large Language Models [79.41859481668618]
大規模言語モデル(LLM)はファクトチェック研究を大幅に進歩させた。
既存のファクトチェック評価手法は静的データセットと分類基準に依存している。
本稿では, LLMのファクトチェック機能を適応的かつ動的に評価するエージェント駆動型フレームワークであるFACT-AUDITを紹介する。
論文 参考訳(メタデータ) (2025-02-25T07:44:22Z) - Causal Representation Learning from Multimodal Biomedical Observations [57.00712157758845]
バイオメディカルデータセットの理解を容易にするために,マルチモーダルデータに対するフレキシブルな識別条件と原理的手法を開発した。
主要な理論的貢献は、モジュラリティ間の因果関係の構造的空間性である。
実世界のヒト表現型データセットの結果は、確立された生物医学研究と一致している。
論文 参考訳(メタデータ) (2024-11-10T16:40:27Z) - Designing LLM-Agents with Personalities: A Psychometric Approach [0.47498241053872914]
本研究は, 定量的, 制御可能, 心理的に検証された個人性をエージェントに割り当てる新しい手法を提案する。
人体研究の制約を克服し、エージェントを社会科学調査のためのアクセス可能なツールとして提案する。
論文 参考訳(メタデータ) (2024-10-25T01:05:04Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - On the Reliability and Explainability of Language Models for Program
Generation [15.569926313298337]
自動プログラム生成手法の能力と限界について検討する。
私たちは、コード変換に大きく貢献するトークンを強調するために、高度な説明可能なAIアプローチを採用しています。
解析の結果,言語モデルではコード文法や構造情報を認識できるが,入力シーケンスの変化に対するロバスト性は限られていることがわかった。
論文 参考訳(メタデータ) (2023-02-19T14:59:52Z) - Validation Diagnostics for SBI algorithms based on Normalizing Flows [55.41644538483948]
本研究は,NFに基づく多次元条件(後)密度推定器の検証診断を容易にすることを提案する。
また、局所的な一貫性の結果に基づいた理論的保証も提供する。
この作業は、より良い特定モデルの設計を支援したり、新しいSBIアルゴリズムの開発を促進するのに役立つだろう。
論文 参考訳(メタデータ) (2022-11-17T15:48:06Z) - Empirical Estimates on Hand Manipulation are Recoverable: A Step Towards
Individualized and Explainable Robotic Support in Everyday Activities [80.37857025201036]
ロボットシステムの鍵となる課題は、他のエージェントの振る舞いを理解することである。
正しい推論の処理は、(衝突)因子が実験的に制御されない場合、特に困難である。
人に関する観察研究を行うために必要なツールをロボットに装備することを提案する。
論文 参考訳(メタデータ) (2022-01-27T22:15:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。