論文の概要: The Better Angels of Machine Personality: How Personality Relates to LLM Safety
- arxiv url: http://arxiv.org/abs/2407.12344v1
- Date: Wed, 17 Jul 2024 06:36:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 18:17:30.642987
- Title: The Better Angels of Machine Personality: How Personality Relates to LLM Safety
- Title(参考訳): マシン・パーソナリティの天使たち:LLMの安全性とパーソナリティの関係
- Authors: Jie Zhang, Dongrui Liu, Chen Qian, Ziyue Gan, Yong Liu, Yu Qiao, Jing Shao,
- Abstract要約: LLM(Large Language Models)における人格特性と安全能力の関係は謎のままである。
LLMの性格特性が安全性と密接に関連していることが判明した。
ISTJからISTPへパーソナリティを誘導すると、プライバシとフェアネスのパフォーマンスが約43%と10%向上した。
- 参考スコア(独自算出の注目度): 46.30207266304056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personality psychologists have analyzed the relationship between personality and safety behaviors in human society. Although Large Language Models (LLMs) demonstrate personality traits, the relationship between personality traits and safety abilities in LLMs still remains a mystery. In this paper, we discover that LLMs' personality traits are closely related to their safety abilities, i.e., toxicity, privacy, and fairness, based on the reliable MBTI-M scale. Meanwhile, the safety alignment generally increases various LLMs' Extraversion, Sensing, and Judging traits. According to such findings, we can edit LLMs' personality traits and improve their safety performance, e.g., inducing personality from ISTJ to ISTP resulted in a relative improvement of approximately 43% and 10% in privacy and fairness performance, respectively. Additionally, we find that LLMs with different personality traits are differentially susceptible to jailbreak. This study pioneers the investigation of LLM safety from a personality perspective, providing new insights into LLM safety enhancement.
- Abstract(参考訳): パーソナリティ心理学者は、人間社会における人格と安全行動の関係を分析してきた。
大言語モデル(LLM)は人格特性を示すが、LLMにおける人格特性と安全能力の関係は依然として謎のままである。
本稿では, MBTI-M尺度に基づいて, LLMの性格特性が安全性, 毒性, プライバシ, 公平性と密接に関連していることを明らかにする。
一方、安全アライメントは一般的に、様々なLLMの外部変換、センシング、および判断特性を増大させる。
これらの結果から, LLMの性格特性を編集し, 安全性の向上, 例えば, ISTJからISTPへのパーソナリティ誘導により, プライバシとフェアネスのパフォーマンスが約43%, 10%向上した。
さらに,異なる性格特性を持つLCMは,脱獄の影響を受けやすいことが判明した。
本研究は, LLMの安全性を個性の観点から研究し, LLMの安全性向上に関する新たな知見を提供する。
関連論文リスト
- Quantifying AI Psychology: A Psychometrics Benchmark for Large Language Models [57.518784855080334]
大きな言語モデル(LLM)は例外的なタスク解決能力を示しており、人間に似た役割を担っている。
本稿では,LLMにおける心理学的次元を調査するための枠組みとして,心理学的識別,評価データセットのキュレーション,結果検証による評価について述べる。
本研究では,個性,価値観,感情,心の理論,モチベーション,知性の6つの心理学的側面を網羅した総合的心理測定ベンチマークを導入する。
論文 参考訳(メタデータ) (2024-06-25T16:09:08Z) - Do LLMs Have Distinct and Consistent Personality? TRAIT: Personality Testset designed for LLMs with Psychometrics [29.325576963215163]
心理学におけるパーソナリティの概念は、伝統的に観察可能な振る舞いによって定義され、その振る舞いをよりよく理解するために、Large Language Models (LLMs) に拡張されている。
既存の自己評価パーソナリティテストは適用可能であるが、正確なパーソナリティ測定に必要な妥当性と信頼性は欠如している。
TRAITは,LLMの性格を妥当性と信頼性で評価する8K質問からなる新しいツールである。
論文 参考訳(メタデータ) (2024-06-20T19:50:56Z) - PHAnToM: Personality Has An Effect on Theory-of-Mind Reasoning in Large Language Models [25.657579792829743]
本研究では,大規模言語モデルにおけるパーソナリティの誘導が,理論・オブ・ミンド(ToM)推論能力にどのように影響するかを検討する。
3種類のToMタスクにおいて,特定の個人性がLLMの推論能力に大きな影響を与えることが判明した。
ToMにおけるパーソナリティプロンプトのばらつきを示すLCMは、パーソナリティテストにおいてより制御しやすい傾向にある。
論文 参考訳(メタデータ) (2024-03-04T17:34:34Z) - Identifying Multiple Personalities in Large Language Models with
External Evaluation [6.657168333238573]
大きな言語モデル(LLM)は、人間の日常的なアプリケーションと迅速に統合されます。
近年の多くの研究は、人間のために作られた自己評価テストを用いて、LLMの個性を定量化している。
しかし、LCMに適用した場合、これらの自己評価テストの適用性と信頼性に疑問を呈する批評家も多い。
論文 参考訳(メタデータ) (2024-02-22T18:57:20Z) - Can Large Language Model Agents Simulate Human Trust Behaviors? [75.69583811834073]
大規模言語モデル(LLM)エージェントは、社会科学などの応用において人間をモデル化するためのシミュレーションツールとして、ますます採用されている。
本稿では,人間同士のインタラクションや信頼の最も重要な行動の一つに焦点をあて,LLMエージェントが人間の信頼行動をシミュレートできるかどうかを検討する。
論文 参考訳(メタデータ) (2024-02-07T03:37:19Z) - Open Models, Closed Minds? On Agents Capabilities in Mimicking Human Personalities through Open Large Language Models [4.742123770879715]
この研究は、オープンLLMのレンズを通して、NLPと人間の心理学の密接な関係を理解するための一歩である。
提案手法は,オープンLLMエージェントの本質的な性格特性を評価し,これらのエージェントが人格を模倣する程度を判断する。
論文 参考訳(メタデータ) (2024-01-13T16:41:40Z) - Who is ChatGPT? Benchmarking LLMs' Psychological Portrayal Using
PsychoBench [83.41621219298489]
大規模言語モデル(LLM)の多様な心理学的側面を評価するためのフレームワーク「サイコベンチ」を提案する。
サイコベンチはこれらの尺度を、性格特性、対人関係、モチベーションテスト、感情能力の4つのカテゴリーに分類する。
我々は、安全アライメントプロトコルをバイパスし、LLMの本質的な性質をテストするためにジェイルブレイクアプローチを採用している。
論文 参考訳(メタデータ) (2023-10-02T17:46:09Z) - Do LLMs Possess a Personality? Making the MBTI Test an Amazing
Evaluation for Large Language Models [2.918940961856197]
我々は,大規模言語モデル(LLM)の評価指標として,人格評価ツールであるMBTI(Myers-Briggs Type Indicator)の有効性を検討することを目的とする。
具体的には,1)異なるLDMの性格タイプ,2)素早いエンジニアリングによる人格タイプの変化の可能性,3)モデルの性格にどのような影響があるかを検討する。
論文 参考訳(メタデータ) (2023-07-30T09:34:35Z) - Revisiting the Reliability of Psychological Scales on Large Language
Models [66.31055885857062]
本研究では,人格評価を大規模言語モデル(LLM)に適用する際の信頼性について検討する。
LLMのパーソナライズに光を当てることで、この分野での今後の探索の道を開くことに努める。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z) - Evaluating and Inducing Personality in Pre-trained Language Models [78.19379997967191]
人間の個性理論を機械行動研究のツールとして活用することで,心理測定研究からインスピレーションを得た。
これらの疑問に答えるために,機械の動作を研究するためのMachine Personality Inventory(MPI)ツールを紹介した。
MPIは、ビッグファイブ・パーソナリティ・ファクター(Big Five Personality Factors、ビッグファイブ・パーソナリティ・ファクター)理論とパーソナリティ評価在庫に基づく標準化されたパーソナリティ・テストに従う。
パーソナリティ・プロンプト法(P2法)を考案し、特定のパーソナリティを持つLSMを制御可能な方法で誘導する。
論文 参考訳(メタデータ) (2022-05-20T07:32:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。