論文の概要: Personality testing of Large Language Models: Limited temporal stability, but highlighted prosociality
- arxiv url: http://arxiv.org/abs/2306.04308v3
- Date: Sun, 28 Jul 2024 07:17:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 01:06:50.467576
- Title: Personality testing of Large Language Models: Limited temporal stability, but highlighted prosociality
- Title(参考訳): 大規模言語モデルのパーソナリティテスト:時間的安定性に限界があるが、社会性を強調した
- Authors: Bojana Bodroza, Bojana M. Dinic, Ljubisa Bojic,
- Abstract要約: 大きな言語モデル(LLM)は、人間のような特徴と、ユーザに提供する親密さによって人気を博している。
本研究は,人格楽器に対する時間的安定度と時間的合意度を2点に評価することを目的とした。
短時間でLSMs反応において, レーザー間一致のレベルが異なることが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: As Large Language Models (LLMs) continue to gain popularity due to their human-like traits and the intimacy they offer to users, their societal impact inevitably expands. This leads to the rising necessity for comprehensive studies to fully understand LLMs and reveal their potential opportunities, drawbacks, and overall societal impact. With that in mind, this research conducted an extensive investigation into seven LLM's, aiming to assess the temporal stability and inter-rater agreement on their responses on personality instruments in two time points. In addition, LLMs personality profile was analyzed and compared to human normative data. The findings revealed varying levels of inter-rater agreement in the LLMs responses over a short time, with some LLMs showing higher agreement (e.g., LIama3 and GPT-4o) compared to others (e.g., GPT-4 and Gemini). Furthermore, agreement depended on used instruments as well as on domain or trait. This implies the variable robustness in LLMs' ability to reliably simulate stable personality characteristics. In the case of scales which showed at least fair agreement, LLMs displayed mostly a socially desirable profile in both agentic and communal domains, as well as a prosocial personality profile reflected in higher agreeableness and conscientiousness and lower Machiavellianism. Exhibiting temporal stability and coherent responses on personality traits is crucial for AI systems due to their societal impact and AI safety concerns.
- Abstract(参考訳): 大きな言語モデル(LLM)は、人間のような特徴と、ユーザに提供する親密性によって人気が高まり続けているため、社会的影響は必然的に拡大している。
これにより、総合的な研究がLSMを完全に理解し、その可能性、欠点、全体的な社会的影響を明らかにする必要性が高まる。
そこで本研究では,7つのLDMについて広範囲に調査を行い,時間的安定性と2つの点において人格楽器に対する反応の相互一致性を評価することを目的とした。
さらに、LLMの性格プロファイルを解析し、ヒトの規範データと比較した。
その結果, LLMs反応は短時間で, LIama3, GPT-4o, GPT-4o, GPT-4oの順に高い値を示した。
また、契約は使用済みの楽器や藩や特質にも依存していた。
このことは、LLMが安定した性格特性を確実にシミュレートする能力の変動ロバスト性を意味する。
少なくとも公正な合意を示した尺度では、LLMはエージェントとコミュニカルドメインの両方で社会的に望ましいプロファイルを示しており、社会人格のプロファイルは、高い同意性と良心と低いマキアベリア主義を反映していた。
人格特性に対する時間的安定性とコヒーレントな応答の排除は、その社会的影響とAI安全性の懸念から、AIシステムにとって不可欠である。
関連論文リスト
- Persuasion with Large Language Models: a Survey [49.86930318312291]
大規模言語モデル (LLM) は説得力のあるコミュニケーションに新たな破壊的可能性を生み出している。
政治、マーケティング、公衆衛生、電子商取引、慈善事業などの分野では、LLMシステムズは既に人間レベルや超人的説得力を達成している。
LLMをベースとした説得の現在と将来の可能性は、倫理的・社会的リスクを著しく引き起こす可能性が示唆された。
論文 参考訳(メタデータ) (2024-11-11T10:05:52Z) - LMLPA: Language Model Linguistic Personality Assessment [11.599282127259736]
大規模言語モデル(LLM)は、日常の生活や研究にますます利用されている。
与えられたLLMの性格を測定することは、現在課題である。
言語モデル言語パーソナリティアセスメント(LMLPA)は,LLMの言語的パーソナリティを評価するシステムである。
論文 参考訳(メタデータ) (2024-10-23T07:48:51Z) - Rel-A.I.: An Interaction-Centered Approach To Measuring Human-LM Reliance [73.19687314438133]
インタラクションの文脈的特徴が依存に与える影響について検討する。
文脈特性が人間の信頼行動に大きく影響していることが判明した。
これらの結果から,キャリブレーションと言語品質だけでは人間とLMの相互作用のリスクを評価するには不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-07-10T18:00:05Z) - Is Cognition and Action Consistent or Not: Investigating Large Language
Model's Personality [12.162460438332152]
本研究では,人格質問紙に対する回答を通じて,人格特性の証明における言語モデル(LLM)の信頼性について検討した。
我々のゴールは、LLMの人格傾向と実際の「行動」との整合性を評価することである。
本研究では,心理学的理論とメトリクスに基づく観察結果の仮説を提案する。
論文 参考訳(メタデータ) (2024-02-22T16:32:08Z) - Stick to your Role! Stability of Personal Values Expressed in Large Language Models [19.516125296160638]
異なる文脈における値表現の安定性に関するケーススタディを提案する。
心理学的手法を用いて,人口のランク順安定性について検討した。
モデルおよびモデルファミリーの安定性における一貫した傾向を観察する。
論文 参考訳(メタデータ) (2024-02-19T14:53:01Z) - LLMs Simulate Big Five Personality Traits: Further Evidence [51.13560635563004]
Llama2, GPT4, Mixtralでシミュレートされた性格特性を解析した。
このことは、パーソナリティ特性をシミュレートするLLMの能力のより広範な理解に寄与する。
論文 参考訳(メタデータ) (2024-01-31T13:45:25Z) - Do LLM Agents Exhibit Social Behavior? [5.094340963261968]
State-Understanding-Value-Action (SUVA) は、社会的文脈における応答を体系的に分析するフレームワークである。
最終決定とそれにつながる反応生成プロセスの両方を通じて社会的行動を評価する。
発話に基づく推論がLLMの最終動作を確実に予測できることを実証する。
論文 参考訳(メタデータ) (2023-12-23T08:46:53Z) - Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。
GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。
本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-01T06:16:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。