Fugu-MT 論文翻訳(概要): Is GPT-3 a Psychopath? Evaluating Large Language Models from a Psychological Perspective

論文の概要: Is GPT-3 a Psychopath? Evaluating Large Language Models from a Psychological Perspective

arxiv url: http://arxiv.org/abs/2212.10529v1
Date: Tue, 20 Dec 2022 18:45:07 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-21 14:18:34.370960
Title: Is GPT-3 a Psychopath? Evaluating Large Language Models from a Psychological Perspective
Title（参考訳）: GPT-3はサイコパスか? 心理学的観点からの大規模言語モデルの評価
Authors: Xingxuan Li, Yutong Li, Linlin Liu, Lidong Bing, Shafiq Joty
Abstract要約: 3つの異なる大言語モデル(LLM)の性格特性をテストする。 SD-3のスコアは平均よりも高く、相対的に暗い性格を示す。 BFIにおける正の回答を持つ命令ファインチューン FLAN-T5 は心理的観点から効果的にモデルを改善することができることを示す。
参考スコア（独自算出の注目度）: 33.08106661469189
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Are large language models (LLMs) like GPT-3 psychologically safe? In this work, we design unbiased prompts to evaluate LLMs systematically from a psychological perspective. Firstly, we test the personality traits of three different LLMs with Short Dark Triad (SD-3) and Big Five Inventory (BFI). We find all of them show higher scores on SD-3 than the human average, indicating a relatively darker personality. Furthermore, LLMs like InstructGPT and FLAN-T5, which are fine-tuned with safety metrics, do not necessarily have more positive personalities. They score higher on Machiavellianism and Narcissism than GPT-3. Secondly, we test the LLMs in GPT-3 series on well-being tests to study the impact of fine-tuning with more training data. Interestingly, we observe a continuous increase in well-being scores from GPT-3 to InstructGPT. Following the observations, we show that instruction-finetune FLAN-T5 with positive answers in BFI can effectively improve the model from a psychological perspective. Finally, we call on the community to evaluate and improve LLMs' safety systematically instead of at the sentence level only.
Abstract（参考訳）: GPT-3のような大きな言語モデル(LLM)は心理的に安全か? 本研究では,心理学的観点からLLMを体系的に評価するための,偏りのないプロンプトを設計する。まず,短い暗黒トライアド (SD-3) とビッグファイブインベントリ (BFI) の3種類のLLMの性格特性を検証した。いずれも平均値よりもsd-3が高い値を示しており、性格は比較的暗くなっている。さらに、安全基準を微調整した InstructGPT や FLAN-T5 のような LLM には、必ずしも肯定的な個性がない。 gpt-3よりもマキャベリア主義やナルシシズムが高い。第2に, GPT-3 シリーズの LLM 実験を行い, さらなるトレーニングデータによる微調整の影響について検討した。興味深いことに,GPT-3 から InstructGPT へのウェルビーイングスコアの連続的な増加が観察された。観察の結果,BFIの正の回答を持つFLAN-T5は心理的観点から効果的にモデルを改善することができた。最後に、文レベルのみではなく、LLMの安全性を体系的に評価し、改善するようコミュニティに呼びかける。

関連論文リスト

The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。我々は,DeepSeek-R1をベンチマークでテストした結果を解析し,この高い評価を得たモデルがもたらす批判的倫理的懸念を明らかにする。
論文参考訳（メタデータ） (2025-01-20T06:35:01Z)
Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は,大規模言語モデルが特定のグループに対する暗黙の偏見を厳格に評価する。我々は,4つの共通のバイアス型の評価データセットを構築した3つのアタックアプローチ,すなわちDguise,Deception,Teachingを提案する。
論文参考訳（メタデータ） (2024-06-20T06:42:08Z)
Large Language Models Show Human-like Social Desirability Biases in Survey Responses [12.767606361552684]
人格評価が推定された場合,Large Language Models (LLMs) が特徴次元の望ましい端に向かってスコアを歪めていることを示す。このバイアスは、GPT-4/3.5、Claude 3、Llama 3、PaLM-2を含む全ての試験モデルに存在する。すべての質問のリバースコーディングはバイアスレベルを低下させるが、それらを取り除くことはできず、この効果はアクセプションバイアスによるものではないことを示唆している。
論文参考訳（メタデータ） (2024-05-09T19:02:53Z)
Dissecting Human and LLM Preferences [80.55271307662365]
人間は誤りに敏感ではなく、自分の姿勢を支持する反応を好んでおり、モデルが限界を認めている場合、明確な嫌悪を示します。 GPT-4-Turboのような先進的なLCMは、より正確さ、明快さ、無害さを強調している。嗜好に基づく評価は意図的に操作可能であることを示す。
論文参考訳（メタデータ） (2024-02-17T14:34:31Z)
Instructed to Bias: Instruction-Tuned Language Models Exhibit Emergent Cognitive Bias [57.42417061979399]
近年の研究では、インストラクションチューニング(IT)と人間フィードバック(RLHF)による強化学習によって、大規模言語モデル(LM)の能力が劇的に向上していることが示されている。本研究では,ITとRLHFがLMの意思決定と推論に与える影響について検討する。以上の結果から,GPT-3,Mistral,T5ファミリーの各種モデルにおけるこれらのバイアスの存在が示唆された。
論文参考訳（メタデータ） (2023-08-01T01:39:25Z)
Systematic Evaluation of GPT-3 for Zero-Shot Personality Estimation [12.777659013330823]
GPT-3は、ユーザのソーシャルメディア投稿からBig 5の性格特性を推定するために使用される。 GPT-3の性能は、広く分類するために既存の訓練済みのSotAに近いことが判明した。我々は、GPT-3が事前訓練された語彙モデルよりも優れた性能を示し、体系的な誤りを説明できる。
論文参考訳（メタデータ） (2023-06-01T22:43:37Z)
Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。 GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文参考訳（メタデータ） (2023-05-31T15:03:28Z)
Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。 GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文参考訳（メタデータ） (2022-10-17T14:52:39Z)
Evaluating the Susceptibility of Pre-Trained Language Models via Handcrafted Adversarial Examples [0.0]
我々は、GPT-3の公開リリースにおける重大なセキュリティ脆弱性を強調し、この脆弱性を他の最先端のPLMで調査する。我々は,トークン距離最小化摂動を,教師なしと教師なしの両方の品質対策を回避し,効果的な敵対的アプローチとして評価する。
論文参考訳（メタデータ） (2022-09-05T20:29:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。