論文の概要: Probing then Editing Response Personality of Large Language Models
- arxiv url: http://arxiv.org/abs/2504.10227v1
- Date: Mon, 14 Apr 2025 13:46:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:52:51.545385
- Title: Probing then Editing Response Personality of Large Language Models
- Title(参考訳): 大規模言語モデルの応答的パーソナリティの探索
- Authors: Tianjie Ju, Zhenyu Shao, Bowen Wang, Yujia Chen, Zhuosheng Zhang, Hao Fei, Mong-Li Lee, Wynne Hsu, Sufeng Duan, Gongshen Liu,
- Abstract要約: 大きな言語モデル(LLM)は、一貫した性格特性を示す応答を生成する有望な能力を示している。
応答するパーソナリティを符号化する上でのLCMのレイヤーワイズ能力を検討するための層ワイズ探索フレームワークを提案する。
推論中に LLM で表現される性格を編集する階層的な編集手法を提案する。
- 参考スコア(独自算出の注目度): 40.99117085818623
- License:
- Abstract: Large Language Models (LLMs) have demonstrated promising capabilities to generate responses that exhibit consistent personality traits. Despite the major attempts to analyze personality expression through output-based evaluations, little is known about how such traits are internally encoded within LLM parameters. In this paper, we introduce a layer-wise probing framework to systematically investigate the layer-wise capability of LLMs in encoding personality for responding. We conduct probing experiments on 11 open-source LLMs over the PersonalityEdit benchmark and find that LLMs predominantly encode personality for responding in their middle and upper layers, with instruction-tuned models demonstrating a slightly clearer separation of personality traits. Furthermore, by interpreting the trained probing hyperplane as a layer-wise boundary for each personality category, we propose a layer-wise perturbation method to edit the personality expressed by LLMs during inference. Our results show that even when the prompt explicitly specifies a particular personality, our method can still successfully alter the response personality of LLMs. Interestingly, the difficulty of converting between certain personality traits varies substantially, which aligns with the representational distances in our probing experiments. Finally, we conduct a comprehensive MMLU benchmark evaluation and time overhead analysis, demonstrating that our proposed personality editing method incurs only minimal degradation in general capabilities while maintaining low training costs and acceptable inference latency. Our code is publicly available at https://github.com/universe-sky/probing-then-editing-personality.
- Abstract(参考訳): 大きな言語モデル(LLM)は、一貫した性格特性を示す応答を生成する有望な能力を示している。
アウトプットベースの評価によって人格表現を解析しようとする大きな試みにもかかわらず、そのような特徴が内部的にLLMパラメータにエンコードされているかはほとんど分かっていない。
本稿では,LLMが応答するパーソナリティを符号化する際のレイヤーワイズ機能について,体系的に検討する階層ワイズ探索フレームワークを提案する。
我々は、PersonalityEditベンチマークを用いて11個のオープンソースLLMの探索実験を行い、LLMが中層と上層で応答するパーソナリティを主にエンコードしていることを確認した。
さらに, 訓練された探索超平面を個々人格カテゴリーのレイヤーワイド境界として解釈することにより, 推論中にLLMによって表現される個性の編集を行う階層ワイド摂動法を提案する。
提案手法は, 特定の人格を明示的に特定した場合でも, LLMの応答性を変化させることが可能であることが示唆された。
興味深いことに、特定の性格特性を変換することの難しさは、探索実験における表現距離と大きく異なる。
最後に、MMLUベンチマークの総合評価と時間オーバーヘッド解析を行い、提案手法は、トレーニングコストの低減と許容推論遅延を抑えながら、一般的な能力の最小限の劣化しか生じないことを示した。
私たちのコードはhttps://github.com/universe-sky/probing-then-editing-personalityで公開されています。
関連論文リスト
- Neuron-based Personality Trait Induction in Large Language Models [115.08894603023712]
大規模言語モデル (LLM) は、様々な性格特性をシミュレートする能力が増している。
LLMにおけるパーソナリティ特性誘導のためのニューロンに基づくアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-16T07:47:45Z) - LLMvsSmall Model? Large Language Model Based Text Augmentation Enhanced
Personality Detection Model [58.887561071010985]
パーソナリティ検出は、ソーシャルメディア投稿に根ざした性格特性を検出することを目的としている。
既存のほとんどのメソッドは、事前訓練された言語モデルを微調整することで、ポスト機能を直接学習する。
本稿では,大規模言語モデル (LLM) に基づくテキスト拡張強化人格検出モデルを提案する。
論文 参考訳(メタデータ) (2024-03-12T12:10:18Z) - Identifying Multiple Personalities in Large Language Models with
External Evaluation [6.657168333238573]
大きな言語モデル(LLM)は、人間の日常的なアプリケーションと迅速に統合されます。
近年の多くの研究は、人間のために作られた自己評価テストを用いて、LLMの個性を定量化している。
しかし、LCMに適用した場合、これらの自己評価テストの適用性と信頼性に疑問を呈する批評家も多い。
論文 参考訳(メタデータ) (2024-02-22T18:57:20Z) - Illuminating the Black Box: A Psychometric Investigation into the
Multifaceted Nature of Large Language Models [3.692410936160711]
本研究では,AIパーソナリティやAInalityの概念を探求し,Large Language Models(LLM)が人間のパーソナリティに似たパターンを示すことを示唆する。
プロジェクティブテストを用いて,直接質問を通じて容易にはアクセスできないLLM個性の隠れた側面を明らかにする。
機械学習解析の結果,LSMは異なるAinality特性を示し,多様な性格型を示し,外的指示に応答して動的に変化を示すことが明らかとなった。
論文 参考訳(メタデータ) (2023-12-21T04:57:21Z) - Challenging the Validity of Personality Tests for Large Language Models [2.9123921488295768]
大規模言語モデル(LLM)は、テキストベースのインタラクションにおいて、ますます人間らしく振る舞う。
人格検査に対するLLMの反応は、人間の反応から体系的に逸脱する。
論文 参考訳(メタデータ) (2023-11-09T11:54:01Z) - PsyCoT: Psychological Questionnaire as Powerful Chain-of-Thought for
Personality Detection [50.66968526809069]
PsyCoTと呼ばれる新しい人格検出手法を提案する。これは、個人がマルチターン対話方式で心理的質問を完遂する方法を模倣するものである。
実験の結果,PsyCoTは人格検出におけるGPT-3.5の性能とロバスト性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-10-31T08:23:33Z) - Tailoring Personality Traits in Large Language Models via
Unsupervisedly-Built Personalized Lexicons [42.66142331217763]
人格は人間の表現パターンを形成する上で重要な役割を果たしている。
従来の手法は、特定のコーパス上の細調整された大規模言語モデル(LLM)に依存していた。
我々は,人格特性を操作するために,Unsupervisedly-Built Personal lexicon (UBPL) をプラガブルな方法で採用した。
論文 参考訳(メタデータ) (2023-10-25T12:16:33Z) - Editing Personality for Large Language Models [73.59001811199823]
本稿では,Large Language Models (LLMs) の性格特性の編集に焦点をあてた革新的なタスクを紹介する。
このタスクに対処する新しいベンチマークデータセットであるPersonalityEditを構築します。
論文 参考訳(メタデータ) (2023-10-03T16:02:36Z) - Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。
本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-01T06:16:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。