論文の概要: Can LLMs Infer Personality from Real World Conversations?
- arxiv url: http://arxiv.org/abs/2507.14355v1
- Date: Fri, 18 Jul 2025 20:22:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:31.85609
- Title: Can LLMs Infer Personality from Real World Conversations?
- Title(参考訳): LLMは実世界の会話からパーソナリティを推測できるのか?
- Authors: Jianfeng Zhu, Ruoming Jin, Karin G. Coifman,
- Abstract要約: 大規模言語モデル(LLM)は、オープンエンド言語からのスケーラブルなパーソナリティアセスメントに対して、有望なアプローチを提供する。
BFI-10項目予測のためのゼロショットプロンプトと、ビッグファイブ特性推定のためのゼロショットとチェーン・オブ・シートの両方を用いて、最先端の3つのLSMを試験した。
全てのモデルでは高い信頼性を示したが、構成の妥当性は限られていた。
- 参考スコア(独自算出の注目度): 5.705775078773656
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) such as OpenAI's GPT-4 and Meta's LLaMA offer a promising approach for scalable personality assessment from open-ended language. However, inferring personality traits remains challenging, and earlier work often relied on synthetic data or social media text lacking psychometric validity. We introduce a real-world benchmark of 555 semi-structured interviews with BFI-10 self-report scores for evaluating LLM-based personality inference. Three state-of-the-art LLMs (GPT-4.1 Mini, Meta-LLaMA, and DeepSeek) were tested using zero-shot prompting for BFI-10 item prediction and both zero-shot and chain-of-thought prompting for Big Five trait inference. All models showed high test-retest reliability, but construct validity was limited: correlations with ground-truth scores were weak (max Pearson's $r = 0.27$), interrater agreement was low (Cohen's $\kappa < 0.10$), and predictions were biased toward moderate or high trait levels. Chain-of-thought prompting and longer input context modestly improved distributional alignment, but not trait-level accuracy. These results underscore limitations in current LLM-based personality inference and highlight the need for evidence-based development for psychological applications.
- Abstract(参考訳): OpenAIのGPT-4やMetaのLLaMAのような大規模言語モデル(LLM)は、オープンエンド言語からのスケーラブルなパーソナリティ評価に有望なアプローチを提供する。
しかし、人格の特徴を推測することは依然として困難であり、初期の研究はしばしば、精神測定の妥当性に欠ける合成データやソーシャルメディアのテキストに依存していた。
実世界の555件の半構造化インタビューとBFI-10の自己申告スコアを比較し,LLMに基づくパーソナリティ推定の評価を行った。
3つの最先端LCM(GPT-4.1 Mini、Meta-LLaMA、DeepSeek)を、BFI-10アイテム予測のためのゼロショットプロンプトと、Big Five特性推論のためのゼロショットとチェーンオブ思想プロンプトの両方を用いてテストした。
全てのモデルは高いテスト-テスト信頼性を示したが、構造的妥当性は限られていた: 基調スコアとの相関は弱く(マックス・ピアソンの$r = 0.27$)、インターラッター合意は低く(コーエンの$\kappa < 0.10$)、予測は中程度または高い特性レベルに偏った。
チェーン・オブ・シークレットのプロンプトとより長い入力コンテキストにより、分散アライメントは適度に改善されたが、特性レベルの精度は向上しなかった。
これらの結果は、現在のLCMに基づくパーソナリティ推論の限界を浮き彫りにし、心理学的応用のためのエビデンスベースの開発の必要性を強調している。
関連論文リスト
- LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - One Thousand and One Pairs: A "novel" challenge for long-context language models [56.60667988954638]
NoChaは、67冊の架空の書籍に関する1,001対の真偽の主張のデータセットである。
当社のアノテータは、NoChaにおけるペアの最大シェアは、本全体に対するグローバルな推論を必要としていることを確認しています。
平均的なモデルでは、文レベルの検索しか必要としないペアの方が、グローバルな推論よりもはるかに優れています。
論文 参考訳(メタデータ) (2024-06-24T02:03:57Z) - Do LLMs Have Distinct and Consistent Personality? TRAIT: Personality Testset designed for LLMs with Psychometrics [29.325576963215163]
大規模言語モデル(LLM)は会話エージェントとして様々な領域に適応している。
LLMのパーソナリティを評価するために設計された8Kのマルチチョイス質問からなる新しいベンチマークTRAITを紹介する。
LLMは独特で一貫した性格を示し、トレーニングデータの影響を強く受けている。
論文 参考訳(メタデータ) (2024-06-20T19:50:56Z) - Quantifying and Optimizing Global Faithfulness in Persona-driven Role-playing [37.92922713921964]
ペルソナ駆動型ロールプレイング(PRP)は、すべてのペルソナステートメントに忠実に固執することで、ユーザクエリに応答可能なAI文字を構築することを目的としている。
本稿では,PRP忠実度を細粒度で説明可能な基準として定量化するための先駆的な探索について述べる。
論文 参考訳(メタデータ) (2024-05-13T13:21:35Z) - Large Language Models Show Human-like Social Desirability Biases in Survey Responses [12.767606361552684]
人格評価が推定された場合,Large Language Models (LLMs) が特徴次元の望ましい端に向かってスコアを歪めていることを示す。
このバイアスは、GPT-4/3.5、Claude 3、Llama 3、PaLM-2を含む全ての試験モデルに存在する。
すべての質問のリバースコーディングはバイアスレベルを低下させるが、それらを取り除くことはできず、この効果はアクセプションバイアスによるものではないことを示唆している。
論文 参考訳(メタデータ) (2024-05-09T19:02:53Z) - Dissecting Human and LLM Preferences [80.55271307662365]
人間は誤りに敏感ではなく、自分の姿勢を支持する反応を好んでおり、モデルが限界を認めている場合、明確な嫌悪を示します。
GPT-4-Turboのような先進的なLCMは、より正確さ、明快さ、無害さを強調している。
嗜好に基づく評価は意図的に操作可能であることを示す。
論文 参考訳(メタデータ) (2024-02-17T14:34:31Z) - Challenging the Validity of Personality Tests for Large Language Models [2.9123921488295768]
大規模言語モデル(LLM)は、テキストベースのインタラクションにおいて、ますます人間らしく振る舞う。
人格検査に対するLLMの反応は、人間の反応から体系的に逸脱する。
論文 参考訳(メタデータ) (2023-11-09T11:54:01Z) - Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence
Scores from Language Models Fine-Tuned with Human Feedback [91.22679548111127]
信頼できる現実世界の予測システムは、よく校正された信頼スコアを生成するべきである。
出力トークンとして出力される言語的信頼度は、通常、モデルの条件付き確率よりも良く校正されていることを示す。
論文 参考訳(メタデータ) (2023-05-24T10:12:33Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - PersonaLLM: Investigating the Ability of Large Language Models to Express Personality Traits [30.770525830385637]
本研究では,ビッグファイブ・パーソナリティ・モデルに基づく大規模言語モデル(LLM)の行動について検討する。
その結果, LLMペルソナの自己申告したBFIスコアは, 指定した性格タイプと一致していることがわかった。
人間の評価は、人間は最大80%の精度でいくつかの性格特性を知覚できることを示している。
論文 参考訳(メタデータ) (2023-05-04T04:58:00Z) - Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。
本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-01T06:16:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。