論文の概要: Mind Reading or Misreading? LLMs on the Big Five Personality Test
- arxiv url: http://arxiv.org/abs/2511.23101v1
- Date: Fri, 28 Nov 2025 11:40:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.87822
- Title: Mind Reading or Misreading? LLMs on the Big Five Personality Test
- Title(参考訳): 読解か誤読か? 五大人格テストのLLM
- Authors: Francesco Di Cursi, Chiara Boldrini, Marco Conti, Andrea Passarella,
- Abstract要約: 本研究では,2進5因子モデル (BIG5) に基づくテキストから人格自動予測のための大規模言語モデル (LLM) を評価する。
オープンソースモデルは時々 GPT-4 や以前のベンチマークにアプローチするが、ゼロショットバイナリ設定で一貫した信頼性のある予測は得られない。
これらの結果から, 現状のLCMはAPPTにはまだ適していないこと, 迅速な設計, 特性フレーミング, 評価指標の慎重な調整が, 解釈可能な結果に不可欠であることが示唆された。
- 参考スコア(独自算出の注目度): 1.3649494534428745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We evaluate large language models (LLMs) for automatic personality prediction from text under the binary Five Factor Model (BIG5). Five models -- including GPT-4 and lightweight open-source alternatives -- are tested across three heterogeneous datasets (Essays, MyPersonality, Pandora) and two prompting strategies (minimal vs. enriched with linguistic and psychological cues). Enriched prompts reduce invalid outputs and improve class balance, but also introduce a systematic bias toward predicting trait presence. Performance varies substantially: Openness and Agreeableness are relatively easier to detect, while Extraversion and Neuroticism remain challenging. Although open-source models sometimes approach GPT-4 and prior benchmarks, no configuration yields consistently reliable predictions in zero-shot binary settings. Moreover, aggregate metrics such as accuracy and macro-F1 mask significant asymmetries, with per-class recall offering clearer diagnostic value. These findings show that current out-of-the-box LLMs are not yet suitable for APPT, and that careful coordination of prompt design, trait framing, and evaluation metrics is essential for interpretable results.
- Abstract(参考訳): 本研究では,2進5因子モデル (BIG5) に基づくテキストから人格自動予測のための大規模言語モデル (LLM) を評価する。
GPT-4と軽量なオープンソース代替品を含む5つのモデルが、3つの異種データセット(Essays、MyPersonality、Pandora)と2つのプロンプト戦略(最小対、言語的および心理学的手がかりに富む)でテストされている。
強化されたプロンプトは、不正な出力を減らし、クラスバランスを改善するだけでなく、特性の存在を予測するための体系的なバイアスも導入する。
オープンネスとアグリエブルネスは比較的検出しやすく、外転とニューロシズムは依然として困難である。
オープンソースモデルは時々 GPT-4 や以前のベンチマークにアプローチするが、ゼロショットバイナリ設定において一貫した信頼性のある予測は得られない。
さらに、精度やマクロF1マスクのような集約されたメトリクスは、より明確な診断値を提供するクラスごとのリコールによって、重要な非対称性を隠蔽する。
これらの結果から, 現状のLCMはAPPTにはまだ適していないこと, 迅速な設計, 特性フレーミング, 評価指標の慎重な調整が, 解釈可能な結果に不可欠であることが示唆された。
関連論文リスト
- Evaluating Prompting Strategies and Large Language Models in Systematic Literature Review Screening: Relevance and Task-Stage Classification [1.2234742322758418]
本研究では,大規模言語モデル (LLM) と戦略がどう相互作用するかを定量化し,体系的な文献レビューのスクリーニング段階を自動化する。
GPT-4o, GPT-4o-mini, DeepSeek-Chat-V3, Gemini-2.5-Flash, Claude-3.5-Haiku, Llama-4-Maverickの6種類のLCMを5種類のプロンプト型で評価した。
CoT-Few-shotは、最も信頼性の高い精度とリコールのバランス、ゼロショットは高感度パスのリコールを最大化し、自己反射はモデル全体の過度な傾きと不安定さによって不利益となる。
論文 参考訳(メタデータ) (2025-10-17T16:53:09Z) - DiSC-AMC: Token- and Parameter-Efficient Discretized Statistics In-Context Automatic Modulation Classification [19.190236060870184]
大規模言語モデル(LLM)は、微調整なしで、オープンセットで自動変調分類(AMC)を実行することができる。
文脈自動変調分類(DiSC-AMC)における離散統計量について述べる。
DiSC-AMCは、高次の統計と累積をコンパクトなシンボルトークンに識別するトークンおよびパラメータ効率の変種である。
論文 参考訳(メタデータ) (2025-09-30T22:20:57Z) - Evaluating LLM Alignment on Personality Inference from Real-World Interview Data [7.061237517845673]
大規模言語モデル(LLM)は、複雑な心理的理解を必要とする役割にますます配備されている。
このような応用の重要な側面である人間の性格特性を解釈する能力は、まだ解明されていない。
本研究では, 半構造化された面接書と, 検証された5つの特徴スコアを組み合わせた新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-09-16T16:54:35Z) - When Punctuation Matters: A Large-Scale Comparison of Prompt Robustness Methods for LLMs [55.20230501807337]
本報告では, 統一実験フレームワーク内での迅速なロバスト性向上のための5つの手法の体系的評価を行う。
Llama、Qwen、Gemmaファミリーの8つのモデルに対して、Natural Instructionsデータセットから52のタスクをベンチマークする。
論文 参考訳(メタデータ) (2025-08-15T10:32:50Z) - Can LLMs Infer Personality from Real World Conversations? [5.705775078773656]
大規模言語モデル(LLM)は、オープンエンド言語からのスケーラブルなパーソナリティアセスメントに対して、有望なアプローチを提供する。
BFI-10項目予測のためのゼロショットプロンプトと、ビッグファイブ特性推定のためのゼロショットとチェーン・オブ・シートの両方を用いて、最先端の3つのLSMを試験した。
全てのモデルでは高い信頼性を示したが、構成の妥当性は限られていた。
論文 参考訳(メタデータ) (2025-07-18T20:22:47Z) - Debiased Prompt Tuning in Vision-Language Model without Annotations [14.811475313694041]
VLM(Vision-Language Models)は、素早い相関の問題に悩まされる可能性がある。
擬似純粋属性アノテーションを利用することで,異なるグループのトレーニング重みを自動調整する手法を提案する。
提案手法は,CelebA,Waterbirds,MetaShiftのデータセットにおける最悪のグループ精度を効率的に向上する。
論文 参考訳(メタデータ) (2025-03-11T12:24:54Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios [58.617025733655005]
緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。
これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。
提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
論文 参考訳(メタデータ) (2023-03-09T09:05:47Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z) - Few-shot Instruction Prompts for Pretrained Language Models to Detect
Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。
大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:19:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。