Fugu-MT 論文翻訳(概要): Who is ChatGPT? Benchmarking LLMs' Psychological Portrayal Using PsychoBench

論文の概要: Who is ChatGPT? Benchmarking LLMs' Psychological Portrayal Using PsychoBench

arxiv url: http://arxiv.org/abs/2310.01386v2
Date: Mon, 22 Jan 2024 13:58:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-23 20:40:59.059121
Title: Who is ChatGPT? Benchmarking LLMs' Psychological Portrayal Using PsychoBench
Title（参考訳）: ChatGPTって誰? 心理ベンチを用いたLCMの心理的ポートフォリオのベンチマーク
Authors: Jen-tse Huang, Wenxuan Wang, Eric John Li, Man Ho Lam, Shujie Ren, Youliang Yuan, Wenxiang Jiao, Zhaopeng Tu, Michael R. Lyu
Abstract要約: 大規模言語モデル(LLM)の多様な心理学的側面を評価するためのフレームワーク「サイコベンチ」を提案する。サイコベンチはこれらの尺度を、性格特性、対人関係、モチベーションテスト、感情能力の4つのカテゴリーに分類する。我々は、安全アライメントプロトコルをバイパスし、LLMの本質的な性質をテストするためにジェイルブレイクアプローチを採用している。
参考スコア（独自算出の注目度）: 83.41621219298489
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have recently showcased their remarkable capacities, not only in natural language processing tasks but also across diverse domains such as clinical medicine, legal consultation, and education. LLMs become more than mere applications, evolving into assistants capable of addressing diverse user requests. This narrows the distinction between human beings and artificial intelligence agents, raising intriguing questions regarding the potential manifestation of personalities, temperaments, and emotions within LLMs. In this paper, we propose a framework, PsychoBench, for evaluating diverse psychological aspects of LLMs. Comprising thirteen scales commonly used in clinical psychology, PsychoBench further classifies these scales into four distinct categories: personality traits, interpersonal relationships, motivational tests, and emotional abilities. Our study examines five popular models, namely text-davinci-003, gpt-3.5-turbo, gpt-4, LLaMA-2-7b, and LLaMA-2-13b. Additionally, we employ a jailbreak approach to bypass the safety alignment protocols and test the intrinsic natures of LLMs. We have made PsychoBench openly accessible via https://github.com/CUHK-ARISE/PsychoBench.
Abstract（参考訳）: 大規模言語モデル(llm)は最近、自然言語処理タスクだけでなく、臨床医学、法務相談、教育といった様々な分野にまたがって、目覚ましい能力を見せている。 LLMは単なるアプリケーション以上のものになり、多様なユーザリクエストに対処できるアシスタントへと進化する。これは人間と人工知能エージェントの区別を狭め、llm内の個性、気質、感情の潜在的顕現に関する興味深い疑問を提起する。本稿では, LLMの多様な心理学的側面を評価するためのフレームワーク, PsychoBenchを提案する。臨床心理学で一般的に用いられる13の尺度からなり、サイコベンチはこれらの尺度を、性格特性、対人関係、動機づけテスト、感情能力の4つのカテゴリーに分類する。本研究は,SMS-davinci-003, gpt-3.5-turbo, gpt-4, LLaMA-2-7b, LLaMA-2-13bの5つの人気モデルについて検討した。さらに,安全性アライメントプロトコルをバイパスし,llmの本質性をテストするためにジェイルブレイクアプローチを採用している。 PsychoBenchはhttps://github.com/CUHK-ARISE/PsychoBench.comで公開しています。

関連論文リスト

MindShift: Analyzing Language Models' Reactions to Psychological Prompts [6.696296750931842]
大規模言語モデル(LLM)は、ユーザが指定した性格特性や態度を吸収し、反映する可能性を秘めている。 LLMの心理的適応性を評価するためのベンチマークであるMindShiftを紹介した。
論文参考訳（メタデータ） (2025-12-09T21:56:54Z)
PsychCounsel-Bench: Evaluating the Psychology Intelligence of Large Language Models [7.565556545193657]
大規模言語モデル(LLM)は、幅広い産業で顕著な成功を収めている。しかし、心理学的カウンセリングのような認知能力を必要とするアプリケーションにおけるその可能性はほとんど未解決のままである。本稿では,LLMが心理的カウンセラーの役割を効果的に担うことができるかどうかを検討する。
論文参考訳（メタデータ） (2025-10-02T02:49:06Z)
MIND: Towards Immersive Psychological Healing with Multi-agent Inner Dialogue [10.680619215137641]
大きな言語モデル(LLM)は、より人間的な相互作用を生み出す可能性があるが、微妙な感情を捉えるのに苦労する。 MIND(Multi-agent INner Dialogue)は、より没入的な心理的癒し環境を提供する新しいパラダイムである。 MINDは従来のパラダイムよりもユーザフレンドリーな体験を提供する。
論文参考訳（メタデータ） (2025-02-27T08:04:27Z)
ToMATO: Verbalizing the Mental States of Role-Playing LLMs for Benchmarking Theory of Mind [25.524355451378593]
ToMATOは、会話よりもマルチチョイスQAとして定式化された新しいToMベンチマークである。私たちは、信念、意図、欲望、感情、知識の5つのカテゴリにまたがって、一階と二階の精神状態を取ります。 ToMATOは5.4kの質問、753の会話、15の性格特性パターンで構成されている。
論文参考訳（メタデータ） (2025-01-15T14:47:02Z)
Assessing Social Alignment: Do Personality-Prompted Large Language Models Behave Like Humans? [9.771036970279765]
言語モデリングの革命は様々な新しい応用をもたらし、その一部は大規模言語モデル(LLM)の出現する「社会的能力」に依存している。 i) パーソナライズされたモデルが人格に記載された人格に合わせて振る舞うか(すなわち、社会的状況で提示された場合の「メイク」決定)、そして(ii) それらの行動がきめ細かく制御できるかどうかを問う。古典心理学実験(ミルグラム実験とウルティマトゥムゲーム)をソーシャルインタラクションテストベッドとして使用し, GPT-3.5/4/4o-mini/4oに即したパーソナリティを適用した。
論文参考訳（メタデータ） (2024-12-21T20:58:19Z)
Quantifying AI Psychology: A Psychometrics Benchmark for Large Language Models [57.518784855080334]
大きな言語モデル(LLM)は例外的なタスク解決能力を示しており、人間に似た役割を担っている。本稿では,LLMにおける心理学的次元を調査するための枠組みとして,心理学的識別,評価データセットのキュレーション,結果検証による評価について述べる。本研究では,個性,価値観,感情,心の理論,モチベーション,知性の6つの心理学的側面を網羅した総合的心理測定ベンチマークを導入する。
論文参考訳（メタデータ） (2024-06-25T16:09:08Z)
Do LLMs Have Distinct and Consistent Personality? TRAIT: Personality Testset designed for LLMs with Psychometrics [29.325576963215163]
大規模言語モデル(LLM)は会話エージェントとして様々な領域に適応している。 LLMのパーソナリティを評価するために設計された8Kのマルチチョイス質問からなる新しいベンチマークTRAITを紹介する。 LLMは独特で一貫した性格を示し、トレーニングデータの影響を強く受けている。
論文参考訳（メタデータ） (2024-06-20T19:50:56Z)
Illuminating the Black Box: A Psychometric Investigation into the Multifaceted Nature of Large Language Models [3.692410936160711]
本研究では,AIパーソナリティやAInalityの概念を探求し,Large Language Models(LLM)が人間のパーソナリティに似たパターンを示すことを示唆する。プロジェクティブテストを用いて,直接質問を通じて容易にはアクセスできないLLM個性の隠れた側面を明らかにする。機械学習解析の結果,LSMは異なるAinality特性を示し,多様な性格型を示し,外的指示に応答して動的に変化を示すことが明らかとなった。
論文参考訳（メタデータ） (2023-12-21T04:57:21Z)
PsyCoT: Psychological Questionnaire as Powerful Chain-of-Thought for Personality Detection [50.66968526809069]
PsyCoTと呼ばれる新しい人格検出手法を提案する。これは、個人がマルチターン対話方式で心理的質問を完遂する方法を模倣するものである。実験の結果,PsyCoTは人格検出におけるGPT-3.5の性能とロバスト性を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2023-10-31T08:23:33Z)
Emotionally Numb or Empathetic? Evaluating How LLMs Feel Using EmotionBench [83.41621219298489]
心理学からの感情評価理論を用いて,Large Language Models (LLMs) の人為的能力を評価する。我々は、研究の中心となる8つの感情を引き出すのに有効な400以上の状況を含むデータセットを収集した。我々は世界中の1200人以上の被験者を対象に人間による評価を行った。
論文参考訳（メタデータ） (2023-08-07T15:18:30Z)
Do LLMs Possess a Personality? Making the MBTI Test an Amazing Evaluation for Large Language Models [2.918940961856197]
我々は,大規模言語モデル(LLM)の評価指標として,人格評価ツールであるMBTI(Myers-Briggs Type Indicator)の有効性を検討することを目的とする。具体的には,1)異なるLDMの性格タイプ,2)素早いエンジニアリングによる人格タイプの変化の可能性,3)モデルの性格にどのような影響があるかを検討する。
論文参考訳（メタデータ） (2023-07-30T09:34:35Z)
Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-01T06:16:14Z)
Evaluating and Inducing Personality in Pre-trained Language Models [78.19379997967191]
人間の個性理論を機械行動研究のツールとして活用することで,心理測定研究からインスピレーションを得た。これらの疑問に答えるために,機械の動作を研究するためのMachine Personality Inventory(MPI)ツールを紹介した。 MPIは、ビッグファイブ・パーソナリティ・ファクター(Big Five Personality Factors、ビッグファイブ・パーソナリティ・ファクター)理論とパーソナリティ評価在庫に基づく標準化されたパーソナリティ・テストに従う。パーソナリティ・プロンプト法(P2法)を考案し、特定のパーソナリティを持つLSMを制御可能な方法で誘導する。
論文参考訳（メタデータ） (2022-05-20T07:32:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。