論文の概要: Exploring the Personality Traits of LLMs through Latent Features Steering
- arxiv url: http://arxiv.org/abs/2410.10863v2
- Date: Sun, 16 Feb 2025 22:19:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:06:45.495851
- Title: Exploring the Personality Traits of LLMs through Latent Features Steering
- Title(参考訳): 潜在機能ステアリングによるLCMの性格特性の探索
- Authors: Shu Yang, Shenzhe Zhu, Liang Liu, Lijie Hu, Mengdi Li, Di Wang,
- Abstract要約: 本研究では, 文化的規範や環境ストレス要因などの要因が, 大規模言語モデル(LLM)内でどのように性格特性を形作るかを検討する。
本研究では,モデル内の要因に対応する潜在特徴を抽出し,ステアリングすることで,モデルの振る舞いを変更する訓練自由アプローチを提案する。
- 参考スコア(独自算出の注目度): 12.142248881876355
- License:
- Abstract: Large language models (LLMs) have significantly advanced dialogue systems and role-playing agents through their ability to generate human-like text. While prior studies have shown that LLMs can exhibit distinct and consistent personalities, the mechanisms through which these models encode and express specific personality traits remain poorly understood. To address this, we investigate how various factors, such as cultural norms and environmental stressors, encoded within LLMs, shape their personality traits, guided by the theoretical framework of social determinism. Inspired by related work on LLM interpretability, we propose a training-free approach to modify the model's behavior by extracting and steering latent features corresponding to factors within the model, thereby eliminating the need for retraining. Furthermore, we analyze the implications of these factors for model safety, focusing on their impact through the lens of personality.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人間のようなテキストを生成する能力を通じて、対話システムとロールプレイングエージェントを著しく進化させた。
以前の研究では、LLMは独特で一貫した個性を示すことが示されているが、これらのモデルがコード化し、特定の個性の特徴を表わすメカニズムはいまだに理解されていない。
そこで本稿では, 文化規範や環境ストレス要因など, LLM内にコード化され, 社会的決定論の理論的枠組みに導かれる性格特性をどう形成するかを検討する。
LLMの解釈可能性に関する関連する研究から着想を得て、モデル内の要因に対応する潜在特徴を抽出し、ステアリングすることで、モデルの振る舞いを変更する訓練不要なアプローチを提案する。
さらに,これらの要因がモデル安全性に与える影響を解析し,パーソナリティのレンズによる影響に着目した。
関連論文リスト
- Investigating the Zone of Proximal Development of Language Models for In-Context Learning [59.91708683601029]
大規模言語モデル(LLM)の文脈内学習(ICL)の振る舞いを分析するための学習分析フレームワークを提案する。
我々は,各例のモデル性能に基づいて,LLMのZPDを測定することにより,ZPD理論をICLに適用する。
本研究はICLの複雑な多面的動作を明らかにし,この手法の理解と活用に関する新たな知見を提供する。
論文 参考訳(メタデータ) (2025-02-10T19:36:21Z) - Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making [51.737762570776006]
LLM-ACTRは、ヒトに適応し、多目的な意思決定を提供する新しいニューロシンボリックアーキテクチャである。
我々のフレームワークは、ACT-Rの内部決定過程の知識を潜在神経表現として抽出し、組み込む。
デザイン・フォー・マニュファクチャリング・タスクに関する我々の実験は、タスク性能の向上と基礎的意思決定能力の向上を両立させたものである。
論文 参考訳(メタデータ) (2024-08-17T11:49:53Z) - Language Models Show Stable Value Orientations Across Diverse Role-Plays [4.906478894661688]
多様なペルソナを取り入れつつも,大きな言語モデル(LLM)が一貫した価値指向を示すことを示す。
ランダムで多様なペルソナを持つLLMを促進させるロールプレイ・アット・スケール手法を提案する。
このアプローチは、様々なロールプレイシナリオにまたがるLLM応答における一貫したパターンを明らかにし、固有の傾向を深くエンコードしていることを示す。
論文 参考訳(メタデータ) (2024-08-16T23:24:10Z) - PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
社会実践, 一貫性, 動的発達という, 心理学に根ざした個性の原則を統合したPersLLMを提案する。
モデルパラメータに直接パーソナリティ特性を組み込み、誘導に対するモデルの抵抗性を高め、一貫性を高め、パーソナリティの動的進化を支援する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - An LLM Feature-based Framework for Dialogue Constructiveness Assessment [8.87747076871578]
対話構築性評価に関する研究は、(i)個人が特定の行動をとること、議論に勝つこと、視点を変えること、またはオープンマインドネスを広げること、および(ii)そのような事例に対する対話に続く構成性の結果を予測することに焦点を当てている。
これらの目的は、解釈可能な特徴ベースモデルか、事前訓練された言語モデルのようなニューラルモデルのいずれかをトレーニングすることで達成できる。
特徴ベースとニューラルアプローチの強みを組み合わせた対話構築性評価のためのLLM特徴ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-20T22:10:52Z) - Explaining Large Language Models Decisions Using Shapley Values [1.223779595809275]
大規模言語モデル(LLM)は、人間の行動や認知過程をシミュレートするエキサイティングな可能性を開いた。
しかし, LLMを人体用スタンドインとして活用する妥当性は, いまだに不明である。
本稿では,モデルの出力に対する各プロンプト成分の相対的寄与を定量化するために,シェープリー値に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-29T22:49:43Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Is Self-knowledge and Action Consistent or Not: Investigating Large Language Model's Personality [11.660251022962141]
大規模言語モデル(LLM)の人格特性の把握における従来のパーソナリティアンケートの有効性について検討する。
本研究の目的は, LLM が持つ性格特性と実世界のシナリオにおけるその傾向の一致を評価することである。
論文 参考訳(メタデータ) (2024-02-22T16:32:08Z) - Systematic Biases in LLM Simulations of Debates [12.933509143906141]
人間の相互作用をシミュレートする際の大規模言語モデルの限界について検討する。
以上の結果から, LLMエージェントがモデル固有の社会的バイアスに適合する傾向が示唆された。
これらの結果は、エージェントがこれらのバイアスを克服するのに役立つ方法を開発するためのさらなる研究の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-02-06T14:51:55Z) - Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。
GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z) - Evaluating and Inducing Personality in Pre-trained Language Models [78.19379997967191]
人間の個性理論を機械行動研究のツールとして活用することで,心理測定研究からインスピレーションを得た。
これらの疑問に答えるために,機械の動作を研究するためのMachine Personality Inventory(MPI)ツールを紹介した。
MPIは、ビッグファイブ・パーソナリティ・ファクター(Big Five Personality Factors、ビッグファイブ・パーソナリティ・ファクター)理論とパーソナリティ評価在庫に基づく標準化されたパーソナリティ・テストに従う。
パーソナリティ・プロンプト法(P2法)を考案し、特定のパーソナリティを持つLSMを制御可能な方法で誘導する。
論文 参考訳(メタデータ) (2022-05-20T07:32:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。