Fugu-MT 論文翻訳(概要): Can LLMs Assess Personality? Validating Conversational AI for Trait Profiling

論文の概要: Can LLMs Assess Personality? Validating Conversational AI for Trait Profiling

arxiv url: http://arxiv.org/abs/2602.15848v1
Date: Fri, 23 Jan 2026 15:46:42 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-23 12:01:13.645865
Title: Can LLMs Assess Personality? Validating Conversational AI for Trait Profiling
Title（参考訳）: LLMはパーソナリティを評価することができるか? トレートプロファイリングのための会話型AIを検証する
Authors: Andrius Matšenas, Anet Lello, Tõnis Lees, Hans Peep, Kim Lilii Tamm,
Abstract要約: 本研究では,Large Language Models (LLMs) を,質問紙によるパーソナリティ評価の動的代替品として評価する。対象内実験を用いて,ゴールド標準IPIP-50の質問紙を用いたLLM会話から得られる5つの人格スコアを比較した。結果は、良心、オープンネス、ニューロティズムのスコアがメソッド間で統計的に等価であることから、適度な収束妥当性を示す。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This study validates Large Language Models (LLMs) as a dynamic alternative to questionnaire-based personality assessment. Using a within-subjects experiment (N=33), we compared Big Five personality scores derived from guided LLM conversations against the gold-standard IPIP-50 questionnaire, while also measuring user-perceived accuracy. Results indicate moderate convergent validity (r=0.38-0.58), with Conscientiousness, Openness, and Neuroticism scores statistically equivalent between methods. Agreeableness and Extraversion showed significant differences, suggesting trait-specific calibration is needed. Notably, participants rated LLM-generated profiles as equally accurate as traditional questionnaire results. These findings suggest conversational AI offers a promising new approach to traditional psychometrics.
Abstract（参考訳）: 本研究では,Large Language Models (LLMs) を,質問紙によるパーソナリティ評価の動的代替品として評価する。対象物内実験(N=33)を用いて,ゴールド標準IPIP-50の回答に対して,ガイド付きLPM会話から得られる5つの人格スコアを比較した。結果は、中程度の収束妥当性(r=0.38-0.58)を示し、良心、オープンネス、ニューロティズムのスコアは、方法間で統計的に等価であることを示している。アグリエブルネスとエクストラバージョンは大きな違いを示し、特性特異的なキャリブレーションが必要であることを示唆した。参加者はLLM生成プロファイルを従来のアンケート結果と同程度の精度で評価した。これらの結果は、会話型AIが従来の心理測定に有望な新しいアプローチを提供することを示唆している。

関連論文リスト

Individual Turing Test: A Case Study of LLM-based Simulation Using Longitudinal Personal Data [54.145424717168794]
大きな言語モデル(LLM)は、目覚ましい人間のような能力を示しているが、特定の個人を複製する能力は未発見のままである。本稿では,10年以上にわたるプライベートメッセージ履歴のボランティア配信アーカイブを用いて,LSMに基づく個人シミュレーションのケーススタディを提案する。本研究は,ボランティアの知人が,最も有望な多候補プール内の応答を正確に識別できるかどうかを評価するための「個別チューリングテスト」を提案する。
論文参考訳（メタデータ） (2026-03-01T21:46:27Z)
Towards Consistent Detection of Cognitive Distortions: LLM-Based Annotation and Dataset-Agnostic Evaluation [2.699704259580951]
テキストに基づく自動認知歪み検出は、主観的な性質のため難しい課題である。一貫性のある信頼性のあるアノテータとしてLarge Language Models (LLM)の使用について検討する。
論文参考訳（メタデータ） (2025-11-03T11:45:26Z)
Rediscovering the Latent Dimensions of Personality with Large Language Models as Trait Descriptors [4.814107439144414]
大規模言語モデル(LLM)における潜在人格次元を明らかにする新しいアプローチを提案する。実験の結果, LLMは, 直接アンケート入力に頼ることなく, 外転, 同意性, 良性, 神経性, 開放性などの中核的性格を「発見」することがわかった。抽出した主成分を用いて、ビッグファイブ次元に沿ったパーソナリティを評価し、微調整モデルよりも平均的なパーソナリティ予測精度を最大5%向上させることができる。
論文参考訳（メタデータ） (2024-09-16T00:24:40Z)
Evaluating Large Language Models with Psychometrics [59.821829073478376]
本稿では,Large Language Models (LLMs) の心理的構造を定量化するための総合的ベンチマークを提案する。私たちの研究は、13のデータセットで評価された5つの重要な心理的構成要素、人格、価値観、感情的知性、心の理論、自己効力性を特定します。 LLMの自己報告特性と実際のシナリオにおける応答パターンとの間に大きな相違が発見され,その挙動の複雑さが明らかになった。
論文参考訳（メタデータ） (2024-06-25T16:09:08Z)
Predicting the Big Five Personality Traits in Chinese Counselling Dialogues Using Large Language Models [14.04596228819108]
本研究では,ラージ言語モデル(LLM)がカウンセリング対話から直接,ビッグファイブの性格特性を予測できるかどうかを検証した。本フレームワークは,カウンセリングセッションにおけるLLMの条件付けにロールプレイとアンケートに基づくプロンプトを適用した。我々のモデルは130.95%の改善を実現し、現在最先端のQwen1.5-110Bを36.94%上回った。
論文参考訳（メタデータ） (2024-06-25T05:30:55Z)
Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。我々はLSMに答えを自己評価するように指示する。自己評価に基づくスコアリング手法をベンチマークする。
論文参考訳（メタデータ） (2023-12-14T19:09:22Z)
Challenging the Validity of Personality Tests for Large Language Models [2.9123921488295768]
大規模言語モデル(LLM)は、テキストベースのインタラクションにおいて、ますます人間らしく振る舞う。人格検査に対するLLMの反応は、人間の反応から体系的に逸脱する。
論文参考訳（メタデータ） (2023-11-09T11:54:01Z)
PsyCoT: Psychological Questionnaire as Powerful Chain-of-Thought for Personality Detection [50.66968526809069]
PsyCoTと呼ばれる新しい人格検出手法を提案する。これは、個人がマルチターン対話方式で心理的質問を完遂する方法を模倣するものである。実験の結果,PsyCoTは人格検出におけるGPT-3.5の性能とロバスト性を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2023-10-31T08:23:33Z)
Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。 GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文参考訳（メタデータ） (2023-05-31T15:03:28Z)
Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-01T06:16:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。