論文の概要: From Prompts to Constructs: A Dual-Validity Framework for LLM Research in Psychology
- arxiv url: http://arxiv.org/abs/2506.16697v1
- Date: Fri, 20 Jun 2025 02:38:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.313133
- Title: From Prompts to Constructs: A Dual-Validity Framework for LLM Research in Psychology
- Title(参考訳): プロンプトから構成へ:心理学におけるLLM研究のためのデュアルバリダリティフレームワーク
- Authors: Zhicheng Lin,
- Abstract要約: 我々は、AI心理学の堅牢な科学を構築するには、信頼度測定の原則と音因推論の標準を統合する必要があると論じる。
我々は、この統合を導くための二重正当性フレームワークを提案し、このフレームワークは、主張を支持するために必要な証拠が、その科学的野心によってどのようにスケールするかを明確にする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are rapidly being adopted across psychology, serving as research tools, experimental subjects, human simulators, and computational models of cognition. However, the application of human measurement tools to these systems can produce contradictory results, raising concerns that many findings are measurement phantoms--statistical artifacts rather than genuine psychological phenomena. In this Perspective, we argue that building a robust science of AI psychology requires integrating two of our field's foundational pillars: the principles of reliable measurement and the standards for sound causal inference. We present a dual-validity framework to guide this integration, which clarifies how the evidence needed to support a claim scales with its scientific ambition. Using an LLM to classify text may require only basic accuracy checks, whereas claiming it can simulate anxiety demands a far more rigorous validation process. Current practice systematically fails to meet these requirements, often treating statistical pattern matching as evidence of psychological phenomena. The same model output--endorsing "I am anxious"--requires different validation strategies depending on whether researchers claim to measure, characterize, simulate, or model psychological constructs. Moving forward requires developing computational analogues of psychological constructs and establishing clear, scalable standards of evidence rather than the uncritical application of human measurement tools.
- Abstract(参考訳): 大規模言語モデル(LLM)は、研究ツール、実験対象、人間のシミュレータ、認知の計算モデルとして、心理学的に急速に採用されている。
しかし、人間の測定ツールをこれらのシステムに適用することは矛盾する結果をもたらす可能性があり、多くの発見が真の心理学現象ではなく、統計的アーティファクトであるということへの懸念が高まっている。
この観点では、AI心理学の堅牢な科学を構築するには、信頼度測定の原理と音因推論の基準という、私たちの分野の基本的柱の2つを統合する必要がある、と論じる。
我々は、この統合を導くための二重正当性フレームワークを提案し、このフレームワークは、主張を支持するために必要な証拠が、その科学的野心によってどのようにスケールするかを明確にする。
LLMを使ってテキストを分類するには基本的な精度チェックが必要だが、不安の要求をシミュレートすることはより厳密な検証プロセスであると主張している。
現在の実践はこれらの要件を体系的に満たさず、しばしば統計的パターンマッチングを心理的現象の証拠として扱う。
同じモデルの出力--"私は心配している"--研究者が心理学的構成を計測、特徴づけ、シミュレート、またはモデル化するかどうかによって異なる検証戦略が要求される。
今後は、人間の測定ツールの非クリティカルな応用よりも、心理学的構成の計算的アナログを開発し、明確でスケーラブルな証拠の標準を確立する必要がある。
関連論文リスト
- Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - Designing LLM-Agents with Personalities: A Psychometric Approach [0.47498241053872914]
本研究は, 定量的, 制御可能, 心理的に検証された個人性をエージェントに割り当てる新しい手法を提案する。
人体研究の制約を克服し、エージェントを社会科学調査のためのアクセス可能なツールとして提案する。
論文 参考訳(メタデータ) (2024-10-25T01:05:04Z) - Assessment and manipulation of latent constructs in pre-trained language models using psychometric scales [4.805861461250903]
本稿では,標準的な心理アンケートを自然言語推論のプロンプトに再構成する方法を示す。
我々は、88種類の公開モデルを用いて、人間のようなメンタルヘルス関連構造の存在を実証した。
論文 参考訳(メタデータ) (2024-09-29T11:00:41Z) - Between Randomness and Arbitrariness: Some Lessons for Reliable Machine Learning at Scale [2.50194939587674]
dissertation: 信頼性を犠牲にすることなくスケーラビリティを実現するために、MLにおける偏在性のソースの定量化と緩和、不確実性推定と最適化アルゴリズムのランダム性。
論文は、機械学習の信頼性測定に関する研究が法と政策の研究と密接に結びついていることの例による実証的な証明として機能する。
論文 参考訳(メタデータ) (2024-06-13T19:29:37Z) - CausalGym: Benchmarking causal interpretability methods on linguistic
tasks [52.61917615039112]
CausalGymを使って、モデル動作に因果的に影響を及ぼす解釈可能性手法のベンチマークを行う。
ピチアモデル (14M--6.9B) について検討し, 幅広い解釈可能性手法の因果効果について検討した。
DASは他の手法よりも優れており、2つの困難な言語現象の学習軌跡の研究に利用している。
論文 参考訳(メタデータ) (2024-02-19T21:35:56Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Empirical Estimates on Hand Manipulation are Recoverable: A Step Towards
Individualized and Explainable Robotic Support in Everyday Activities [80.37857025201036]
ロボットシステムの鍵となる課題は、他のエージェントの振る舞いを理解することである。
正しい推論の処理は、(衝突)因子が実験的に制御されない場合、特に困難である。
人に関する観察研究を行うために必要なツールをロボットに装備することを提案する。
論文 参考訳(メタデータ) (2022-01-27T22:15:56Z) - AGENT: A Benchmark for Core Psychological Reasoning [60.35621718321559]
直観心理学は、観察可能な行動を駆動する隠された精神変数を推論する能力です。
他のエージェントを推論する機械エージェントに対する近年の関心にもかかわらず、そのようなエージェントが人間の推論を駆動するコア心理学の原則を学ぶか保持するかは明らかではない。
本稿では,プロシージャが生成する3dアニメーション,エージェントを4つのシナリオで構成したベンチマークを提案する。
論文 参考訳(メタデータ) (2021-02-24T14:58:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。