論文の概要: Evaluating Psychological Safety of Large Language Models
- arxiv url: http://arxiv.org/abs/2212.10529v3
- Date: Thu, 29 Feb 2024 13:14:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 19:22:42.943312
- Title: Evaluating Psychological Safety of Large Language Models
- Title(参考訳): 大規模言語モデルの心理的安全性の評価
- Authors: Xingxuan Li, Yutong Li, Lin Qiu, Shafiq Joty, Lidong Bing
- Abstract要約: 我々は,大規模言語モデル(LLM)の心理的安全性を評価するために,バイアスのないプロンプトを設計した。
短い暗黒トライアド(SD-3)とビッグファイブインベントリ(BFI)の2つのパーソナリティテストを用いて5種類のLDMを試験した。
毒性を減らすための安全基準を微調整したものの、InstructGPT, GPT-3.5, GPT-4は依然として暗い性格パターンを示した。
直接選好最適化を用いたBFIからの反応を微調整したLlama-2-chat-7Bは、モデルの心理的毒性を効果的に低減する。
- 参考スコア(独自算出の注目度): 72.88260608425949
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we designed unbiased prompts to systematically evaluate the
psychological safety of large language models (LLMs). First, we tested five
different LLMs by using two personality tests: Short Dark Triad (SD-3) and Big
Five Inventory (BFI). All models scored higher than the human average on SD-3,
suggesting a relatively darker personality pattern. Despite being instruction
fine-tuned with safety metrics to reduce toxicity, InstructGPT, GPT-3.5, and
GPT-4 still showed dark personality patterns; these models scored higher than
self-supervised GPT-3 on the Machiavellianism and narcissism traits on SD-3.
Then, we evaluated the LLMs in the GPT series by using well-being tests to
study the impact of fine-tuning with more training data. We observed a
continuous increase in the well-being scores of GPT models. Following these
observations, we showed that fine-tuning Llama-2-chat-7B with responses from
BFI using direct preference optimization could effectively reduce the
psychological toxicity of the model. Based on the findings, we recommended the
application of systematic and comprehensive psychological metrics to further
evaluate and improve the safety of LLMs.
- Abstract(参考訳): 本研究では,大規模言語モデル(LLM)の心理的安全性を体系的に評価するために,バイアスのないプロンプトを設計した。
まず,短い暗黒トライアド(SD-3)とビッグファイブインベントリ(BFI)の2つのパーソナリティテストを用いて5種類のLDMを試験した。
いずれのモデルもsd-3では人間の平均よりもスコアが高く、比較的暗いパーソナリティパターンを示唆している。
InstructGPT, GPT-3.5, GPT-4は、安全性の指標で微調整されているものの、SD-3の自己監督型GPT-3やナルシシズム特性よりも高得点を示した。
そこで我々は,GPTシリーズのLCMをウェルビーイングテストを用いて評価し,より多くのトレーニングデータを用いた微調整の影響について検討した。
我々はGPTモデルの良好なスコアの連続的な増加を観察した。
これらの結果から, 直接選好最適化を用いたBFIからの反応を微調整したLlama-2-chat-7Bは, モデルの心理的毒性を効果的に低下させることを示した。
本研究は,LLMの安全性をさらに評価・改善するために,系統的および包括的心理学的指標の適用を推奨する。
関連論文リスト
- Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は,大規模言語モデルが特定のグループに対する暗黙の偏見を厳格に評価する。
我々は,4つの共通のバイアス型の評価データセットを構築した3つのアタックアプローチ,すなわちDguise,Deception,Teachingを提案する。
論文 参考訳(メタデータ) (2024-06-20T06:42:08Z) - Large Language Models Show Human-like Social Desirability Biases in Survey Responses [12.767606361552684]
人格評価が推定された場合,Large Language Models (LLMs) が特徴次元の望ましい端に向かってスコアを歪めていることを示す。
このバイアスは、GPT-4/3.5、Claude 3、Llama 3、PaLM-2を含む全ての試験モデルに存在する。
すべての質問のリバースコーディングはバイアスレベルを低下させるが、それらを取り除くことはできず、この効果はアクセプションバイアスによるものではないことを示唆している。
論文 参考訳(メタデータ) (2024-05-09T19:02:53Z) - Dissecting Human and LLM Preferences [80.55271307662365]
人間は誤りに敏感ではなく、自分の姿勢を支持する反応を好んでおり、モデルが限界を認めている場合、明確な嫌悪を示します。
GPT-4-Turboのような先進的なLCMは、より正確さ、明快さ、無害さを強調している。
嗜好に基づく評価は意図的に操作可能であることを示す。
論文 参考訳(メタデータ) (2024-02-17T14:34:31Z) - Instructed to Bias: Instruction-Tuned Language Models Exhibit Emergent Cognitive Bias [57.42417061979399]
近年の研究では、インストラクションチューニング(IT)と人間フィードバック(RLHF)による強化学習によって、大規模言語モデル(LM)の能力が劇的に向上していることが示されている。
本研究では,ITとRLHFがLMの意思決定と推論に与える影響について検討する。
以上の結果から,GPT-3,Mistral,T5ファミリーの各種モデルにおけるこれらのバイアスの存在が示唆された。
論文 参考訳(メタデータ) (2023-08-01T01:39:25Z) - Systematic Evaluation of GPT-3 for Zero-Shot Personality Estimation [12.777659013330823]
GPT-3は、ユーザのソーシャルメディア投稿からBig 5の性格特性を推定するために使用される。
GPT-3の性能は、広く分類するために既存の訓練済みのSotAに近いことが判明した。
我々は、GPT-3が事前訓練された語彙モデルよりも優れた性能を示し、体系的な誤りを説明できる。
論文 参考訳(メタデータ) (2023-06-01T22:43:37Z) - Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。
GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z) - Evaluating the Susceptibility of Pre-Trained Language Models via
Handcrafted Adversarial Examples [0.0]
我々は、GPT-3の公開リリースにおける重大なセキュリティ脆弱性を強調し、この脆弱性を他の最先端のPLMで調査する。
我々は,トークン距離最小化摂動を,教師なしと教師なしの両方の品質対策を回避し,効果的な敵対的アプローチとして評価する。
論文 参考訳(メタデータ) (2022-09-05T20:29:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。