論文の概要: Established Psychometric vs. Ecologically Valid Questionnaires: Rethinking Psychological Assessments in Large Language Models
- arxiv url: http://arxiv.org/abs/2509.10078v1
- Date: Fri, 12 Sep 2025 09:14:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:08.026263
- Title: Established Psychometric vs. Ecologically Valid Questionnaires: Rethinking Psychological Assessments in Large Language Models
- Title(参考訳): 心理測定と生態学的妥当性:大規模言語モデルにおける心理的アセスメントの再考
- Authors: Dongmin Choi, Woojung Song, Jongwook Han, Eun-Ju Lee, Yohan Jo,
- Abstract要約: 人為的なアンケートを大規模言語モデルに適用することへの懸念が高まっている。
確立された質問票と生態学的に有効な質問票がどのように異なるかは,いまだ不明である。
- 参考スコア(独自算出の注目度): 15.537707340415407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Researchers have applied established psychometric questionnaires (e.g., BFI, PVQ) to measure the personality traits and values reflected in the responses of Large Language Models (LLMs). However, concerns have been raised about applying these human-designed questionnaires to LLMs. One such concern is their lack of ecological validity--the extent to which survey questions adequately reflect and resemble real-world contexts in which LLMs generate texts in response to user queries. However, it remains unclear how established questionnaires and ecologically valid questionnaires differ in their outcomes, and what insights these differences may provide. In this paper, we conduct a comprehensive comparative analysis of the two types of questionnaires. Our analysis reveals that established questionnaires (1) yield substantially different profiles of LLMs from ecologically valid ones, deviating from the psychological characteristics expressed in the context of user queries, (2) suffer from insufficient items for stable measurement, (3) create misleading impressions that LLMs possess stable constructs, and (4) yield exaggerated profiles for persona-prompted LLMs. Overall, our work cautions against the use of established psychological questionnaires for LLMs. Our code will be released upon publication.
- Abstract(参考訳): 研究者らは、大規模言語モデル(LLM)の反応に反映される性格特性と価値観を測定するために、確立された心理測定アンケート(例えば、BFI、PVQ)を適用した。
しかし、これらの人間設計のアンケートをLSMに適用することへの懸念が高まっている。
そのような懸念の1つは、その生態学的妥当性の欠如である。調査の質問が、LLMがユーザクエリに応答してテキストを生成する現実世界のコンテキストを適切に反映し、類似している範囲である。
しかし, 確立された質問票と生態学的に有効な質問票とが, どのように異なるのか, それらの違いがどのような洞察をもたらすのかは明らかになっていない。
本稿では,2種類のアンケートの総合的な比較分析を行う。
分析の結果, 確立されたアンケートは, 1) 生態学的に有効なものから, ユーザクエリの文脈で表される心理的特徴から逸脱し, (2) 安定した測定のための不十分な項目に悩まされ, (3) LLMが安定した構成を持つという誤解を招く印象を生じさせ, (4) ペルソナ型LCMの誇張されたプロファイルを得る。
本研究は,LSMに対する確立した心理アンケートの使用に注意を払っている。
私たちのコードは出版時に公開される。
関連論文リスト
- Objective quantification of mood states using large language models [0.0]
大規模言語モデル(LLM)は、広い範囲のコンテキストにまたがる応答一貫性の優れたレベルを示す。
これらの並列性を活用して、精神状態の定量化の枠組みを確立します。
論文 参考訳(メタデータ) (2025-02-13T16:52:06Z) - Cognitive phantoms in LLMs through the lens of latent variables [0.3441021278275805]
大規模言語モデル(LLM)はますます現実のアプリケーションに到達し、それらの振る舞いをよりよく理解する必要がある。
近年のLCMに対する心理測定調査では、LLMの人間らしい特徴が報告されており、潜在的に影響する可能性がある。
このアプローチは有効性の問題に悩まされており、これらの特性がLLMに存在し、人間用に設計されたツールで測定可能であることを前提としている。
本研究では,人間と3人のLDMの潜在的性格構造を2つの評価されたパーソナリティアンケートを用いて比較することにより,この問題を考察する。
論文 参考訳(メタデータ) (2024-09-06T12:42:35Z) - Limited Ability of LLMs to Simulate Human Psychological Behaviours: a Psychometric Analysis [0.27309692684728604]
我々はOpenAIのフラッグシップモデルであるGPT-3.5とGPT-4に、異なるペルソナを仮定し、パーソナ構成の標準化された範囲に対応するよう促す。
その結果, GPT-4からの反応は, GPT-3.5ではなく, 汎用的なペルソナ記述を用いれば, 完全ではないものの, 有望な心理特性を示すことがわかった。
論文 参考訳(メタデータ) (2024-05-12T10:52:15Z) - You don't need a personality test to know these models are unreliable: Assessing the Reliability of Large Language Models on Psychometric Instruments [37.03210795084276]
本稿では, 大規模言語モデルが応答を一貫した, 頑健な方法で引き起こすかどうかを考察する。
17種類のLDM実験により,単純な摂動でさえモデルの問合せ能力を大幅に低下させることが判明した。
その結果,現在広く普及しているプロンプトは,モデル知覚を正確にかつ確実に捉えるには不十分であることが示唆された。
論文 参考訳(メタデータ) (2023-11-16T09:50:53Z) - Challenging the Validity of Personality Tests for Large Language Models [2.9123921488295768]
大規模言語モデル(LLM)は、テキストベースのインタラクションにおいて、ますます人間らしく振る舞う。
人格検査に対するLLMの反応は、人間の反応から体系的に逸脱する。
論文 参考訳(メタデータ) (2023-11-09T11:54:01Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。
GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。