論文の概要: Judging with Personality and Confidence: A Study on Personality-Conditioned LLM Relevance Assessment
- arxiv url: http://arxiv.org/abs/2601.01862v1
- Date: Mon, 05 Jan 2026 07:46:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.845644
- Title: Judging with Personality and Confidence: A Study on Personality-Conditioned LLM Relevance Assessment
- Title(参考訳): パーソナリティと信頼感による判断:パーソナリティに配慮したLCM関連性評価に関する研究
- Authors: Nuo Chen, Hanpei Fang, Piaohong Wang, Jiqun Liu, Tetsuya Sakai, Xiao-Ming Wu,
- Abstract要約: 大きな言語モデル(LLM)は、特定の性格特性をシミュレートし、それらの特徴と一致する振る舞いを生成する。
シミュレーションされた個性が、信頼性の校正、特に過信や過信に対する傾向にどのように影響するかを調査する研究はほとんどない。
低同意性などの個性は、不適切な条件よりも、常に人間のラベルと密に一致していることを示す。
- 参考スコア(独自算出の注目度): 27.57574817687014
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies have shown that prompting can enable large language models (LLMs) to simulate specific personality traits and produce behaviors that align with those traits. However, there is limited understanding of how these simulated personalities influence critical web search decisions, specifically relevance assessment. Moreover, few studies have examined how simulated personalities impact confidence calibration, specifically the tendencies toward overconfidence or underconfidence. This gap exists even though psychological literature suggests these biases are trait-specific, often linking high extraversion to overconfidence and high neuroticism to underconfidence. To address this gap, we conducted a comprehensive study evaluating multiple LLMs, including commercial models and open-source models, prompted to simulate Big Five personality traits. We tested these models across three test collections (TREC DL 2019, TREC DL 2020, and LLMJudge), collecting two key outputs for each query-document pair: a relevance judgment and a self-reported confidence score. The findings show that personalities such as low agreeableness consistently align more closely with human labels than the unprompted condition. Additionally, low conscientiousness performs well in balancing the suppression of both overconfidence and underconfidence. We also observe that relevance scores and confidence distributions vary systematically across different personalities. Based on the above findings, we incorporate personality-conditioned scores and confidence as features in a random forest classifier. This approach achieves performance that surpasses the best single-personality condition on a new dataset (TREC DL 2021), even with limited training data. These findings highlight that personality-derived confidence offers a complementary predictive signal, paving the way for more reliable and human-aligned LLM evaluators.
- Abstract(参考訳): 近年の研究では、大きな言語モデル(LLM)が特定の性格特性をシミュレートし、それらの特徴と整合した行動を生み出すことができることが示されている。
しかし、これらのシミュレートされたパーソナリティがウェブ検索決定にどのように影響するか、特に関連性評価に限定的に理解されている。
さらに、人格のシミュレートが自信のキャリブレーションにどのように影響するか、特に自信過剰や自信不足への傾向を調査する研究はほとんどない。
このギャップは、心理学的な文献ではこれらのバイアスは特性に特有であり、しばしば過剰な自信への高い外転と過度の自信への高い神経症とを結びつけている。
このギャップに対処するため、我々は、Big Fiveの性格特性をシミュレートするために、商用モデルやオープンソースモデルを含む複数のLCMを評価した総合的研究を行った。
これらのモデルを3つのテストコレクション(TREC DL 2019, TREC DL 2020, LLMJudge)でテストし, 関連性判定と自己報告型信頼スコアの2つの主要な結果を得た。
これらの結果から, 満足度が低いような個性は, 進行しない状態よりも, 常にヒトのラベルと密に一致していることが示唆された。
さらに、低い良心は、過信と過信の両方の抑制のバランスをとるのによく機能する。
また、関係スコアと信頼度分布は、個人によって体系的に異なることも観察した。
以上の結果から,無作為な森林分類器の特徴として,個性条件のスコアと自信を取り入れた。
この新しいデータセット(TREC DL 2021)では,限られたトレーニングデータであっても,最高の単対人条件を超えるパフォーマンスを実現する。
これらの知見は、人格由来の自信が相補的な予測信号を提供し、より信頼性が高く、人間に準拠したLLM評価者への道を開くことを示唆している。
関連論文リスト
- Metacognitive Sensitivity for Test-Time Dynamic Model Selection [0.0]
我々は、AIメタ認知を評価し、活用するための新しいフレームワークを提案する。
メタ認知感度の心理学的評価尺度「メタd」を導入し,モデルの信頼度がモデルの精度を確実に予測できるかを特徴付ける。
次に、この動的感度スコアを、テスト時間モデル選択を行うバンドベースのアービタのコンテキストとして使用する。
論文 参考訳(メタデータ) (2025-12-11T09:15:05Z) - The Personality Illusion: Revealing Dissociation Between Self-Reports & Behavior in LLMs [60.15472325639723]
人格特性は、人間の行動の予測因子として長い間研究されてきた。
近年のLarge Language Models (LLM) は, 人工システムに類似したパターンが出現する可能性を示唆している。
論文 参考訳(メタデータ) (2025-09-03T21:27:10Z) - Evaluating the Simulation of Human Personality-Driven Susceptibility to Misinformation with LLMs [0.18416014644193066]
大規模言語モデル(LLM)により、大規模に合成行動データを生成することができる。
我々は,誤情報に対する個人的影響の変動を再現するために,Big-Fiveプロファイルに規定されたLLMエージェントの能力を評価する。
論文 参考訳(メタデータ) (2025-06-30T08:16:07Z) - Evaluating Large Language Models with Psychometrics [59.821829073478376]
本稿では,Large Language Models (LLMs) の心理的構造を定量化するための総合的ベンチマークを提案する。
私たちの研究は、13のデータセットで評価された5つの重要な心理的構成要素、人格、価値観、感情的知性、心の理論、自己効力性を特定します。
LLMの自己報告特性と実際のシナリオにおける応答パターンとの間に大きな相違が発見され,その挙動の複雑さが明らかになった。
論文 参考訳(メタデータ) (2024-06-25T16:09:08Z) - Do LLMs Have Distinct and Consistent Personality? TRAIT: Personality Testset designed for LLMs with Psychometrics [29.325576963215163]
大規模言語モデル(LLM)は会話エージェントとして様々な領域に適応している。
LLMのパーソナリティを評価するために設計された8Kのマルチチョイス質問からなる新しいベンチマークTRAITを紹介する。
LLMは独特で一貫した性格を示し、トレーニングデータの影響を強く受けている。
論文 参考訳(メタデータ) (2024-06-20T19:50:56Z) - PsyCoT: Psychological Questionnaire as Powerful Chain-of-Thought for
Personality Detection [50.66968526809069]
PsyCoTと呼ばれる新しい人格検出手法を提案する。これは、個人がマルチターン対話方式で心理的質問を完遂する方法を模倣するものである。
実験の結果,PsyCoTは人格検出におけるGPT-3.5の性能とロバスト性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-10-31T08:23:33Z) - Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。
GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。