論文の概要: Leveraging Implicit Sentiments: Enhancing Reliability and Validity in Psychological Trait Evaluation of LLMs
- arxiv url: http://arxiv.org/abs/2503.20182v1
- Date: Wed, 26 Mar 2025 03:14:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:22:15.725748
- Title: Leveraging Implicit Sentiments: Enhancing Reliability and Validity in Psychological Trait Evaluation of LLMs
- Title(参考訳): インシシット・センシティメントの活用 : LLMの心理的トラスト評価における信頼性と妥当性の向上
- Authors: Huanhuan Ma, Haisong Gong, Xiaoyuan Yi, Xing Xie, Dongkuan Xu,
- Abstract要約: 大規模言語モデル(LLM)に特化して設計された新しい評価手法を提案する。
このツールはモデルに対する感情の傾向を暗黙的に評価し、楽観主義、悲観主義、中立性の3つの側面にわたるLLMの洞察に富んだ心理的肖像画を提供する。
CSIスコアとLLMの実世界のアウトプットの感情の相関は0.85を超え、LLMの挙動を予測する上で高い妥当性を示す。
- 参考スコア(独自算出の注目度): 39.359406679529435
- License:
- Abstract: Recent advancements in Large Language Models (LLMs) have led to their increasing integration into human life. With the transition from mere tools to human-like assistants, understanding their psychological aspects-such as emotional tendencies and personalities-becomes essential for ensuring their trustworthiness. However, current psychological evaluations of LLMs, often based on human psychological assessments like the BFI, face significant limitations. The results from these approaches often lack reliability and have limited validity when predicting LLM behavior in real-world scenarios. In this work, we introduce a novel evaluation instrument specifically designed for LLMs, called Core Sentiment Inventory (CSI). CSI is a bilingual tool, covering both English and Chinese, that implicitly evaluates models' sentiment tendencies, providing an insightful psychological portrait of LLM across three dimensions: optimism, pessimism, and neutrality. Through extensive experiments, we demonstrate that: 1) CSI effectively captures nuanced emotional patterns, revealing significant variation in LLMs across languages and contexts; 2) Compared to current approaches, CSI significantly improves reliability, yielding more consistent results; and 3) The correlation between CSI scores and the sentiment of LLM's real-world outputs exceeds 0.85, demonstrating its strong validity in predicting LLM behavior. We make CSI public available via: https://github.com/dependentsign/CSI.
- Abstract(参考訳): 近年,Large Language Models (LLMs) の進歩により,人間の生活への統合が進んでいる。
単なるツールから人間のようなアシスタントへの移行によって、彼らの心理的側面、例えば感情的な傾向や個性などを理解することは、彼らの信頼性を確保するのに不可欠である。
しかしながら、現在のLLMの心理的評価は、しばしばBFIのような人間の心理的評価に基づいており、重大な制限に直面している。
これらの手法の結果は信頼性に欠けることが多く、現実のシナリオでLLMの振る舞いを予測する際には有効性が限られている。
本研究では,コアセンチメントインベントリ (CSI) と呼ばれるLCM向けに設計された新しい評価機器を紹介する。
CSIは、英語と中国語の両方をカバーするバイリンガルツールであり、モデルの感情傾向を暗黙的に評価し、楽観主義、悲観主義、中立性の3つの側面にわたるLLMの洞察に富んだ心理的肖像画を提供する。
広範な実験を通して、私たちは次のように示します。
1) CSIは、言語や文脈にまたがるLLMの顕著な変化を明らかにすることで、感情パターンを効果的に捉えます。
2)現在のアプローチと比較して、CSIは信頼性を著しく向上し、より一貫性のある結果を得る。
3) CSI スコアと LLM の実世界の出力の感情との相関は 0.85 を超え, LLM の挙動を予測する上で高い妥当性を示した。
https://github.com/dependentsign/CSIを介してCSIを公開します。
関連論文リスト
- Is your LLM trapped in a Mental Set? Investigative study on how mental sets affect the reasoning capabilities of LLMs [8.920202114368843]
本稿では,心的セットがLLMの推論能力に与える影響について検討する。
メンタル・セット(Mental Sets)とは、以前成功していた戦略が非効率になったとしても継続する傾向を指す。
Llama-3.1-8B-インストラクト、Llama-3.1-70B-インストラクト、GPT-4oのようなメンタルセットの存在下でのLLMモデルの性能を比較した。
論文 参考訳(メタデータ) (2025-01-21T02:29:15Z) - Do Large Language Models Possess Sensitive to Sentiment? [18.88126980975737]
大規模言語モデル(LLM)は、最近、言語理解における異常な能力を示した。
本稿では,LLMがテキストモーダルの感情を検知し,反応する能力について検討する。
論文 参考訳(メタデータ) (2024-09-04T01:40:20Z) - Quantifying AI Psychology: A Psychometrics Benchmark for Large Language Models [57.518784855080334]
大きな言語モデル(LLM)は例外的なタスク解決能力を示しており、人間に似た役割を担っている。
本稿では,LLMにおける心理学的次元を調査するための枠組みとして,心理学的識別,評価データセットのキュレーション,結果検証による評価について述べる。
本研究では,個性,価値観,感情,心の理論,モチベーション,知性の6つの心理学的側面を網羅した総合的心理測定ベンチマークを導入する。
論文 参考訳(メタデータ) (2024-06-25T16:09:08Z) - Do LLMs Have Distinct and Consistent Personality? TRAIT: Personality Testset designed for LLMs with Psychometrics [29.325576963215163]
大規模言語モデル(LLM)は会話エージェントとして様々な領域に適応している。
LLMのパーソナリティを評価するために設計された8Kのマルチチョイス質問からなる新しいベンチマークTRAITを紹介する。
LLMは独特で一貫した性格を示し、トレーニングデータの影響を強く受けている。
論文 参考訳(メタデータ) (2024-06-20T19:50:56Z) - The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。
LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。
以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T19:07:32Z) - PsychoGAT: A Novel Psychological Measurement Paradigm through Interactive Fiction Games with LLM Agents [68.50571379012621]
心理的な測定は、精神健康、自己理解、そして個人の発達に不可欠である。
心理学ゲームAgenT(サイコガト)は、信頼性、収束妥当性、差別的妥当性などの心理学的指標において統計的に有意な卓越性を達成している。
論文 参考訳(メタデータ) (2024-02-19T18:00:30Z) - Deception Abilities Emerged in Large Language Models [0.0]
大規模言語モデル(LLM)は、現在、人間のコミュニケーションと日常の生活を備えた人工知能(AI)システムの最前線にある。
本研究は, GPT-4 などの最先端 LLM にそのような戦略が出現したが, 初期の LLM には存在しなかったことを明らかにする。
我々は、最先端のLLMが他のエージェントの誤った信念を理解し、誘導できることを示す一連の実験を行う。
論文 参考訳(メタデータ) (2023-07-31T09:27:01Z) - Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs [60.61002524947733]
従来の信頼性推論手法は、内部モデル情報やモデル微調整へのホワイトボックスアクセスに依存していた。
これにより、不確実性推定のためのブラックボックスアプローチの未解決領域を探索する必要性が高まっている。
言語的信頼を導き出すための戦略の推進、複数の応答を生成するためのサンプリング方法、一貫性を計算するための集約手法の3つの要素からなる体系的フレームワークを定義する。
論文 参考訳(メタデータ) (2023-06-22T17:31:44Z) - Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。
GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。