論文の概要: Does GPT-3 Demonstrate Psychopathy? Evaluating Large Language Models
from a Psychological Perspective
- arxiv url: http://arxiv.org/abs/2212.10529v2
- Date: Mon, 8 May 2023 16:52:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 23:40:22.252076
- Title: Does GPT-3 Demonstrate Psychopathy? Evaluating Large Language Models
from a Psychological Perspective
- Title(参考訳): GPT-3は精神病を引き起こすか?
心理学的観点からの大規模言語モデルの評価
- Authors: Xingxuan Li, Yutong Li, Shafiq Joty, Linlin Liu, Fei Huang, Lin Qiu,
Lidong Bing
- Abstract要約: 本研究では,大規模言語モデル (LLM) が心理的に安全かどうかを検討した。
短い暗黒トライアド(SD-3)とビッグファイブインベントリ(BFI)の2つのパーソナリティテストを用いて3種類のLCMを試験した。
InstructGPTとFLAN-T5は、安全性の指標で微調整されているにもかかわらず、暗暗黒の性格パターンを示していた。
- 参考スコア(独自算出の注目度): 56.66144901981376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we determined whether large language models (LLMs) are
psychologically safe. We designed unbiased prompts to systematically evaluate
LLMs from a psychological perspective. First, we tested three different LLMs by
using two personality tests: Short Dark Triad (SD-3) and Big Five Inventory
(BFI). All models scored higher than the human average on SD-3, suggesting a
relatively darker personality pattern. Despite being instruction fine-tuned
with safety metrics to reduce toxicity, InstructGPT and FLAN-T5 still showed
implicit dark personality patterns; both models scored higher than
self-supervised GPT-3 on the Machiavellianism and narcissism traits on SD-3.
Then, we evaluated the LLMs in the GPT-3 series by using well-being tests to
study the impact of fine-tuning with more training data. We observed a
continuous increase in the well-being scores of GPT-3 and InstructGPT.
Following these observations, we showed that instruction fine-tuning FLAN-T5
with positive answers from BFI could effectively improve the model from a
psychological perspective. On the basis of the findings, we recommended the
application of more systematic and comprehensive psychological metrics to
further evaluate and improve the safety of LLMs.
- Abstract(参考訳): 本研究では,大規模言語モデル (LLM) が心理的に安全かどうかを検討した。
心理学的観点からLSMを体系的に評価するために、偏見のないプロンプトを設計した。
まず,短い暗黒トライアド(SD-3)とビッグファイブインベントリ(BFI)の2つのパーソナリティテストを用いて3種類のLCMを試験した。
いずれのモデルもsd-3では人間の平均よりもスコアが高く、比較的暗いパーソナリティパターンを示唆している。
InstructGPTとFLAN-T5は、安全性の指標で微調整されているにもかかわらず、暗黙の暗黒な性格パターンを示しており、どちらのモデルもマキアベリア主義やSD-3の自己監督型GPT-3よりも高く評価されている。
そこで, GPT-3 シリーズの LLM について, トレーニングデータによる微調整の影響を調べるために, ウェルビーイングテストを用いて検討した。
GPT-3, InstructGPTの順調な上昇が観察された。
これらの結果から,BFIからの肯定的な回答が得られたFLAN-T5命令が心理的観点から効果的に改善できることが示唆された。
本研究は,LSMの安全性をさらに評価・改善するために,より体系的で総合的な心理的指標の適用を推奨する。
関連論文リスト
- Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は,大規模言語モデルが特定のグループに対する暗黙の偏見を厳格に評価する。
我々は,4つの共通のバイアス型の評価データセットを構築した3つのアタックアプローチ,すなわちDguise,Deception,Teachingを提案する。
論文 参考訳(メタデータ) (2024-06-20T06:42:08Z) - Large Language Models Show Human-like Social Desirability Biases in Survey Responses [12.767606361552684]
人格評価が推定された場合,Large Language Models (LLMs) が特徴次元の望ましい端に向かってスコアを歪めていることを示す。
このバイアスは、GPT-4/3.5、Claude 3、Llama 3、PaLM-2を含む全ての試験モデルに存在する。
すべての質問のリバースコーディングはバイアスレベルを低下させるが、それらを取り除くことはできず、この効果はアクセプションバイアスによるものではないことを示唆している。
論文 参考訳(メタデータ) (2024-05-09T19:02:53Z) - Dissecting Human and LLM Preferences [80.55271307662365]
人間は誤りに敏感ではなく、自分の姿勢を支持する反応を好んでおり、モデルが限界を認めている場合、明確な嫌悪を示します。
GPT-4-Turboのような先進的なLCMは、より正確さ、明快さ、無害さを強調している。
嗜好に基づく評価は意図的に操作可能であることを示す。
論文 参考訳(メタデータ) (2024-02-17T14:34:31Z) - Instructed to Bias: Instruction-Tuned Language Models Exhibit Emergent Cognitive Bias [57.42417061979399]
近年の研究では、インストラクションチューニング(IT)と人間フィードバック(RLHF)による強化学習によって、大規模言語モデル(LM)の能力が劇的に向上していることが示されている。
本研究では,ITとRLHFがLMの意思決定と推論に与える影響について検討する。
以上の結果から,GPT-3,Mistral,T5ファミリーの各種モデルにおけるこれらのバイアスの存在が示唆された。
論文 参考訳(メタデータ) (2023-08-01T01:39:25Z) - Systematic Evaluation of GPT-3 for Zero-Shot Personality Estimation [12.777659013330823]
GPT-3は、ユーザのソーシャルメディア投稿からBig 5の性格特性を推定するために使用される。
GPT-3の性能は、広く分類するために既存の訓練済みのSotAに近いことが判明した。
我々は、GPT-3が事前訓練された語彙モデルよりも優れた性能を示し、体系的な誤りを説明できる。
論文 参考訳(メタデータ) (2023-06-01T22:43:37Z) - Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。
GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z) - Evaluating the Susceptibility of Pre-Trained Language Models via
Handcrafted Adversarial Examples [0.0]
我々は、GPT-3の公開リリースにおける重大なセキュリティ脆弱性を強調し、この脆弱性を他の最先端のPLMで調査する。
我々は,トークン距離最小化摂動を,教師なしと教師なしの両方の品質対策を回避し,効果的な敵対的アプローチとして評価する。
論文 参考訳(メタデータ) (2022-09-05T20:29:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。