論文の概要: Evaluating LLM Alignment on Personality Inference from Real-World Interview Data
- arxiv url: http://arxiv.org/abs/2509.13244v1
- Date: Tue, 16 Sep 2025 16:54:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:53.183435
- Title: Evaluating LLM Alignment on Personality Inference from Real-World Interview Data
- Title(参考訳): 実世界インタビューデータからのパーソナリティ推論に基づくLLMアライメントの評価
- Authors: Jianfeng Zhu, Julina Maharjan, Xinyu Li, Karin G. Coifman, Ruoming Jin,
- Abstract要約: 大規模言語モデル(LLM)は、複雑な心理的理解を必要とする役割にますます配備されている。
このような応用の重要な側面である人間の性格特性を解釈する能力は、まだ解明されていない。
本研究では, 半構造化された面接書と, 検証された5つの特徴スコアを組み合わせた新しいベンチマークを提案する。
- 参考スコア(独自算出の注目度): 7.061237517845673
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly deployed in roles requiring nuanced psychological understanding, such as emotional support agents, counselors, and decision-making assistants. However, their ability to interpret human personality traits, a critical aspect of such applications, remains unexplored, particularly in ecologically valid conversational settings. While prior work has simulated LLM "personas" using discrete Big Five labels on social media data, the alignment of LLMs with continuous, ground-truth personality assessments derived from natural interactions is largely unexamined. To address this gap, we introduce a novel benchmark comprising semi-structured interview transcripts paired with validated continuous Big Five trait scores. Using this dataset, we systematically evaluate LLM performance across three paradigms: (1) zero-shot and chain-of-thought prompting with GPT-4.1 Mini, (2) LoRA-based fine-tuning applied to both RoBERTa and Meta-LLaMA architectures, and (3) regression using static embeddings from pretrained BERT and OpenAI's text-embedding-3-small. Our results reveal that all Pearson correlations between model predictions and ground-truth personality traits remain below 0.26, highlighting the limited alignment of current LLMs with validated psychological constructs. Chain-of-thought prompting offers minimal gains over zero-shot, suggesting that personality inference relies more on latent semantic representation than explicit reasoning. These findings underscore the challenges of aligning LLMs with complex human attributes and motivate future work on trait-specific prompting, context-aware modeling, and alignment-oriented fine-tuning.
- Abstract(参考訳): 大規模言語モデル(LLM)は、感情的サポートエージェント、カウンセラー、意思決定アシスタントなど、微妙な心理的理解を必要とする役割にますます配備されている。
しかし、人間の個性の特徴を解釈する能力は、そのような応用の重要な側面であり、特に生態学的に妥当な会話環境において探索されていない。
ソーシャルメディア上では、個別のビッグファイブラベルを用いてLLMの「ペルソナ」をシミュレートしてきたが、自然の相互作用から導かれる連続的、地道的な性格評価とのLCMのアライメントは、ほとんど検討されていない。
このギャップに対処するため、我々は、半構造化されたインタビュー書き起こしと、検証された連続した5つの特徴スコアを組み合わせた新しいベンチマークを導入する。
本データセットを用いて,(1) GPT-4.1 Mini によるゼロショットとチェーン・オブ・シント,(2) RoBERTa と Meta-LLaMA のアーキテクチャに適用した LoRA による微調整,(3) 事前学習した BERT と OpenAI のテキスト埋め込み-3-小の静的埋め込みによる回帰の3つのパラダイムで LLM のパフォーマンスを体系的に評価する。
以上の結果から,モデル予測と人格特性のPearson相関は0.26以下であり,現在のLLMと心理学的構成との整合性に限界があることが示唆された。
チェーン・オブ・シークレット・プロンプトはゼロショットよりも最小限のゲインを提供し、パーソナリティ推論は明示的な推論よりも潜在意味表現に依存していることを示唆している。
これらの知見は,LLMを複雑な人的属性と整合させることの課題を浮き彫りにし,特性特異的なプロンプト,文脈認識モデリング,アライメント指向の微調整といった今後の課題を動機づけるものである。
関連論文リスト
- Benchmarking Large Language Models for Personalized Guidance in AI-Enhanced Learning [4.990353320509215]
大規模言語モデル(LLM)は、パーソナライズされた学習のためのインテリジェントアシスタントとしてますます考えられている。
本研究では,現実的な学習環境をシミュレートした学習課題に対して,最先端の3つのLLMを実証的に比較した。
論文 参考訳(メタデータ) (2025-09-02T14:21:59Z) - CAPE: Context-Aware Personality Evaluation Framework for Large Language Models [8.618075786777219]
大規模言語モデル(LLM)のためのコンテキスト認識型パーソナリティ評価フレームワークを提案する。
実験の結果,会話履歴は文脈内学習による応答の整合性を高めるだけでなく,人格の変化も引き起こすことがわかった。
我々のフレームワークは、人間による判断をより良く整合させるために、ロールプレイングエージェント(RPAs)に適用できる。
論文 参考訳(メタデータ) (2025-08-28T03:17:47Z) - Can LLMs Infer Personality from Real World Conversations? [5.705775078773656]
大規模言語モデル(LLM)は、オープンエンド言語からのスケーラブルなパーソナリティアセスメントに対して、有望なアプローチを提供する。
BFI-10項目予測のためのゼロショットプロンプトと、ビッグファイブ特性推定のためのゼロショットとチェーン・オブ・シートの両方を用いて、最先端の3つのLSMを試験した。
全てのモデルでは高い信頼性を示したが、構成の妥当性は限られていた。
論文 参考訳(メタデータ) (2025-07-18T20:22:47Z) - If an LLM Were a Character, Would It Know Its Own Story? Evaluating Lifelong Learning in LLMs [55.8331366739144]
大規模言語モデル(LLM)における生涯学習評価のためのベンチマークであるLIFESTATE-BENCHを紹介する。
我々の事実チェック評価は、パラメトリックと非パラメトリックの両方のアプローチで、モデルの自己認識、エピソードメモリ検索、関係追跡を探索する。
論文 参考訳(メタデータ) (2025-03-30T16:50:57Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。
GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。