論文の概要: Beyond Self-Reports: Multi-Observer Agents for Personality Assessment in Large Language Models
- arxiv url: http://arxiv.org/abs/2504.08399v1
- Date: Fri, 11 Apr 2025 10:03:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 14:20:13.083961
- Title: Beyond Self-Reports: Multi-Observer Agents for Personality Assessment in Large Language Models
- Title(参考訳): 自己報告を超えて:大規模言語モデルにおける個人性評価のためのマルチオブザーバエージェント
- Authors: Yin Jou Huang, Rafik Hadfi,
- Abstract要約: 本稿では,Large Language Model (LLM)パーソナリティアセスメントのための新しいマルチ・オブザーバ・フレームワークを提案する。
このアプローチでは、自己評価のみに頼るのではなく、特定の関係コンテキストに設定された複数のオブザーバエージェントを用いる。
実験の結果, LLMには自己報告型性格評価の体系的バイアスがあることが判明した。
- 参考スコア(独自算出の注目度): 2.7010154811483167
- License:
- Abstract: There is a growing interest in assessing the personality traits of Large language models (LLMs). However, traditional personality assessments based on self-report questionnaires may fail to capture their true behavioral nuances due to inherent biases and meta-knowledge contamination. This paper introduces a novel multi-observer framework for LLM personality assessment that draws inspiration from informant-report methods in psychology. Instead of relying solely on self-assessments, our approach employs multiple observer agents configured with a specific relationship context (e.g., family, friend, or workplace) to simulate interactive scenarios with a subject LLM. These observers engage in dialogues and subsequently provide ratings across the Big Five personality dimensions. Our experiments reveal that LLMs possess systematic biases in self-report personality ratings. Moreover, aggregating observer ratings effectively reduces non-systematic biases and achieves optimal reliability with 5-7 observers. The findings highlight the significant impact of relationship context on personality perception and demonstrate that a multi-observer paradigm yields a more robust and context-sensitive evaluation of LLM personality traits.
- Abstract(参考訳): 大規模言語モデル(LLM)の性格特性を評価することへの関心が高まっている。
しかし、自己報告アンケートに基づく従来の性格評価は、固有のバイアスやメタ知識汚染により、真の行動のニュアンスを捉えられない可能性がある。
本稿では,心理学における情報伝達手法からインスピレーションを得るLLMパーソナリティ評価のための新しいマルチ・オブザーバ・フレームワークを提案する。
本手法では、自己評価のみに頼るのではなく、特定の関係状況(例えば、家族、友人、職場など)で設定された複数のオブザーバーエージェントを用いて、対話的なシナリオを主題のLLMでシミュレートする。
これらの観察者は対話を行い、その後、ビッグ・ファイブの個性次元にわたって評価を行う。
実験の結果, LLMには自己報告型性格評価の体系的バイアスがあることが判明した。
さらに、オブザーバ評価の集約は、非システマティックバイアスを効果的に低減し、5-7オブザーバで最適な信頼性を達成する。
本研究は,関係文脈が人格知覚に与える影響を明らかにするとともに,マルチ・オブザーバ・パラダイムがLLM性格特性のより堅牢で文脈に敏感な評価をもたらすことを示す。
関連論文リスト
- Can LLM Agents Maintain a Persona in Discourse? [3.286711575862228]
大規模言語モデル(LLM)は、教育、法律、医学など、様々な分野でその能力を利用する会話エージェントとして広く利用されている。
LLMは、しばしばコンテキストシフトの振る舞いを受け、一貫性と解釈可能なパーソナリティ整合性の相互作用が欠如する。
LLMはパーソナライズされた対話へと導くことができるが、その性格特性を維持する能力はモデルと談話設定の組み合わせによって大きく異なる。
論文 参考訳(メタデータ) (2025-02-17T14:36:39Z) - Evaluating Personality Traits in Large Language Models: Insights from Psychological Questionnaires [3.6001840369062386]
この研究は、多種多様なシナリオにおける大規模言語モデルに心理学的ツールを適用し、パーソナリティプロファイルを生成する。
以上の結果から, LLMは, 同一モデル群においても, 特徴, 特徴, 性格の異なる特徴を示すことが明らかとなった。
論文 参考訳(メタデータ) (2025-02-07T16:12:52Z) - PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
社会実践, 一貫性, 動的発達という, 心理学に根ざした個性の原則を統合したPersLLMを提案する。
モデルパラメータに直接パーソナリティ特性を組み込み、誘導に対するモデルの抵抗性を高め、一貫性を高め、パーソナリティの動的進化を支援する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - Quantifying AI Psychology: A Psychometrics Benchmark for Large Language Models [57.518784855080334]
大きな言語モデル(LLM)は例外的なタスク解決能力を示しており、人間に似た役割を担っている。
本稿では,LLMにおける心理学的次元を調査するための枠組みとして,心理学的識別,評価データセットのキュレーション,結果検証による評価について述べる。
本研究では,個性,価値観,感情,心の理論,モチベーション,知性の6つの心理学的側面を網羅した総合的心理測定ベンチマークを導入する。
論文 参考訳(メタデータ) (2024-06-25T16:09:08Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - LLMvsSmall Model? Large Language Model Based Text Augmentation Enhanced
Personality Detection Model [58.887561071010985]
パーソナリティ検出は、ソーシャルメディア投稿に根ざした性格特性を検出することを目的としている。
既存のほとんどのメソッドは、事前訓練された言語モデルを微調整することで、ポスト機能を直接学習する。
本稿では,大規模言語モデル (LLM) に基づくテキスト拡張強化人格検出モデルを提案する。
論文 参考訳(メタデータ) (2024-03-12T12:10:18Z) - Is Self-knowledge and Action Consistent or Not: Investigating Large Language Model's Personality [11.660251022962141]
大規模言語モデル(LLM)の人格特性の把握における従来のパーソナリティアンケートの有効性について検討する。
本研究の目的は, LLM が持つ性格特性と実世界のシナリオにおけるその傾向の一致を評価することである。
論文 参考訳(メタデータ) (2024-02-22T16:32:08Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。
GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z) - PersonaLLM: Investigating the Ability of Large Language Models to Express Personality Traits [30.770525830385637]
本研究では,ビッグファイブ・パーソナリティ・モデルに基づく大規模言語モデル(LLM)の行動について検討する。
その結果, LLMペルソナの自己申告したBFIスコアは, 指定した性格タイプと一致していることがわかった。
人間の評価は、人間は最大80%の精度でいくつかの性格特性を知覚できることを示している。
論文 参考訳(メタデータ) (2023-05-04T04:58:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。