論文の概要: Extroversion or Introversion? Controlling The Personality of Your Large Language Models
- arxiv url: http://arxiv.org/abs/2406.04583v1
- Date: Fri, 7 Jun 2024 02:11:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 15:48:53.519316
- Title: Extroversion or Introversion? Controlling The Personality of Your Large Language Models
- Title(参考訳): 外向か内向か? 大規模言語モデルのパーソナリティを制御する
- Authors: Yanquan Chen, Zhen Wu, Junjie Guo, Shujian Huang, Xinyu Dai,
- Abstract要約: 大規模言語モデル(LLM)は、テキスト生成と理解において堅牢な能力を示し、人間の振る舞いを模倣し、合成された個性を示す。
現存する文献は、LLMの個性の起源と進化、および効果的な個性制御を無視している。
- 参考スコア(独自算出の注目度): 45.41665888929014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) exhibit robust capabilities in text generation and comprehension, mimicking human behavior and exhibiting synthetic personalities. However, some LLMs have displayed offensive personality, propagating toxic discourse. Existing literature neglects the origin and evolution of LLM personalities, as well as the effective personality control. To fill these gaps, our study embarked on a comprehensive investigation into LLM personality control. We investigated several typical methods to influence LLMs, including three training methods: Continual Pre-training, Supervised Fine-Tuning (SFT), and Reinforcement Learning from Human Feedback (RLHF), along with inference phase considerations (prompts). Our investigation revealed a hierarchy of effectiveness in control: Prompt > SFT > RLHF > Continual Pre-train. Notably, SFT exhibits a higher control success rate compared to prompt induction. While prompts prove highly effective, we found that prompt-induced personalities are less robust than those trained, making them more prone to showing conflicting personalities under reverse personality prompt induction. Besides, harnessing the strengths of both SFT and prompt, we proposed $\underline{\text{P}}$rompt $\underline{\text{I}}$nduction post $\underline{\text{S}}$upervised $\underline{\text{F}}$ine-tuning (PISF), which emerges as the most effective and robust strategy for controlling LLMs' personality, displaying high efficacy, high success rates, and high robustness. Even under reverse personality prompt induction, LLMs controlled by PISF still exhibit stable and robust personalities.
- Abstract(参考訳): 大規模言語モデル(LLM)は、テキスト生成と理解において堅牢な能力を示し、人間の振る舞いを模倣し、合成された個性を示す。
しかし、一部のLSMは攻撃的な性格を示し、有害な言説を広めている。
現存する文献は、LLMの個性の起源と進化、および効果的な個性制御を無視している。
これらのギャップを埋めるため,本研究はLLMパーソナリティコントロールの総合的な研究に着手した。
本研究は, 連続事前学習, 監視ファインチューニング (SFT) , ヒューマンフィードバックからの強化学習 (RLHF) , 推論位相を考慮した3つの学習方法を含む, LLMに影響を与えるいくつかの典型的な方法について検討した。
調査の結果,コントロールにおける効果の階層構造が明らかとなった。
特に、SFTは、迅速な誘導よりも高い制御成功率を示す。
プロンプトは極めて有効であることが証明されているが、プロンプト誘発のパーソナリティは訓練された人ほど堅牢ではないことが判明し、逆パーソナリティ誘導の下で対立するパーソナリティを示す傾向が高くなった。
さらに、SFTとプロンプトの長所を生かして、高い有効性、高い成功率、高い堅牢性を示すLLMの個性を制御する最も効果的で堅牢な戦略として、$\underline{\text{P}}$rompt $\underline{\text{I}}$nduction post $\underline{\text{S}}$upervised $\underline{\text{F}}$ine-tuning (PISF)を提案した。
逆のパーソナリティ誘導の下でも、PISFによって制御されるLLMは、安定かつ堅牢なパーソナリティを示す。
関連論文リスト
- Neuron-based Personality Trait Induction in Large Language Models [115.08894603023712]
大規模言語モデル (LLM) は、様々な性格特性をシミュレートする能力が増している。
LLMにおけるパーソナリティ特性誘導のためのニューロンに基づくアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-16T07:47:45Z) - The Better Angels of Machine Personality: How Personality Relates to LLM Safety [46.30207266304056]
LLM(Large Language Models)における人格特性と安全能力の関係は謎のままである。
LLMの性格特性が安全性と密接に関連していることが判明した。
ISTJからISTPへパーソナリティを誘導すると、プライバシとフェアネスのパフォーマンスが約43%と10%向上した。
論文 参考訳(メタデータ) (2024-07-17T06:36:29Z) - Do LLMs Have Distinct and Consistent Personality? TRAIT: Personality Testset designed for LLMs with Psychometrics [29.325576963215163]
大規模言語モデル(LLM)は会話エージェントとして様々な領域に適応している。
LLMのパーソナリティを評価するために設計された8Kのマルチチョイス質問からなる新しいベンチマークTRAITを紹介する。
LLMは独特で一貫した性格を示し、トレーニングデータの影響を強く受けている。
論文 参考訳(メタデータ) (2024-06-20T19:50:56Z) - LLMvsSmall Model? Large Language Model Based Text Augmentation Enhanced
Personality Detection Model [58.887561071010985]
パーソナリティ検出は、ソーシャルメディア投稿に根ざした性格特性を検出することを目的としている。
既存のほとんどのメソッドは、事前訓練された言語モデルを微調整することで、ポスト機能を直接学習する。
本稿では,大規模言語モデル (LLM) に基づくテキスト拡張強化人格検出モデルを提案する。
論文 参考訳(メタデータ) (2024-03-12T12:10:18Z) - Open Models, Closed Minds? On Agents Capabilities in Mimicking Human Personalities through Open Large Language Models [4.742123770879715]
この研究は、オープンLLMのレンズを通して、NLPと人間の心理学の密接な関係を理解するための一歩である。
提案手法は,オープンLLMエージェントの本質的な性格特性を評価し,これらのエージェントが人格を模倣する程度を判断する。
論文 参考訳(メタデータ) (2024-01-13T16:41:40Z) - Illuminating the Black Box: A Psychometric Investigation into the
Multifaceted Nature of Large Language Models [3.692410936160711]
本研究では,AIパーソナリティやAInalityの概念を探求し,Large Language Models(LLM)が人間のパーソナリティに似たパターンを示すことを示唆する。
プロジェクティブテストを用いて,直接質問を通じて容易にはアクセスできないLLM個性の隠れた側面を明らかにする。
機械学習解析の結果,LSMは異なるAinality特性を示し,多様な性格型を示し,外的指示に応答して動的に変化を示すことが明らかとなった。
論文 参考訳(メタデータ) (2023-12-21T04:57:21Z) - PsyCoT: Psychological Questionnaire as Powerful Chain-of-Thought for
Personality Detection [50.66968526809069]
PsyCoTと呼ばれる新しい人格検出手法を提案する。これは、個人がマルチターン対話方式で心理的質問を完遂する方法を模倣するものである。
実験の結果,PsyCoTは人格検出におけるGPT-3.5の性能とロバスト性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-10-31T08:23:33Z) - Tailoring Personality Traits in Large Language Models via
Unsupervisedly-Built Personalized Lexicons [42.66142331217763]
人格は人間の表現パターンを形成する上で重要な役割を果たしている。
従来の手法は、特定のコーパス上の細調整された大規模言語モデル(LLM)に依存していた。
我々は,人格特性を操作するために,Unsupervisedly-Built Personal lexicon (UBPL) をプラガブルな方法で採用した。
論文 参考訳(メタデータ) (2023-10-25T12:16:33Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。