論文の概要: Your Language Model Secretly Contains Personality Subnetworks
- arxiv url: http://arxiv.org/abs/2602.07164v1
- Date: Fri, 06 Feb 2026 20:03:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.483607
- Title: Your Language Model Secretly Contains Personality Subnetworks
- Title(参考訳): パーソナリティ・サブネットを秘かに含んでいる言語モデル
- Authors: Ruimeng Ye, Zihan Wang, Zinan Ling, Yang Xiao, Manling Li, Xiaolong Ma, Bo Hui,
- Abstract要約: 大規模言語モデルには,すでにパラメータ空間にペルソナ特化作業が存在することを示す。
本手法は完全にトレーニング不要であり,言語モデルの既存のパラメータ空間にのみ依存する。
- 参考スコア(独自算出の注目度): 31.480534845874473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans shift between different personas depending on social context. Large Language Models (LLMs) demonstrate a similar flexibility in adopting different personas and behaviors. Existing approaches, however, typically adapt such behavior through external knowledge such as prompting, retrieval-augmented generation (RAG), or fine-tuning. We ask: do LLMs really need external context or parameters to adapt to different behaviors, or do they already have such knowledge embedded in their parameters? In this work, we show that LLMs already contain persona-specialized subnetworks in their parameter space. Using small calibration datasets, we identify distinct activation signatures associated with different personas. Guided by these statistics, we develop a masking strategy that isolates lightweight persona subnetworks. Building on the findings, we further discuss: how can we discover opposing subnetwork from the model that lead to binary-opposing personas, such as introvert-extrovert? To further enhance separation in binary opposition scenarios, we introduce a contrastive pruning strategy that identifies parameters responsible for the statistical divergence between opposing personas. Our method is entirely training-free and relies solely on the language model's existing parameter space. Across diverse evaluation settings, the resulting subnetworks exhibit significantly stronger persona alignment than baselines that require external knowledge while being more efficient. Our findings suggest that diverse human-like behaviors are not merely induced in LLMs, but are already embedded in their parameter space, pointing toward a new perspective on controllable and interpretable personalization in large language models.
- Abstract(参考訳): 人間は社会的文脈によって異なる人格間を移動する。
大きな言語モデル(LLM)は、異なるペルソナや振る舞いを採用する上で、同様の柔軟性を示している。
しかし、既存のアプローチは、通常、プロンプト、検索強化生成(RAG)、微調整といった外部知識を通じてそのような振る舞いに適応する。
LLMは、異なる振る舞いに適応するために、本当に外部のコンテキストやパラメータが必要ですか?
本研究では, LLMがすでにパラメータ空間にペルソナ特化サブネットワークを備えていることを示す。
小さいキャリブレーションデータセットを用いて、異なるペルソナに関連する異なるアクティベーションシグネチャを識別する。
これらの統計に基づいて、軽量のペルソナサブネットワークを分離するマスキング戦略を開発する。
内向外向などの二元対向ペルソナに繋がるモデルから、対立するサブネットワークをどうやって発見できるのか?
対立する2つのシナリオの分離をさらに強化するため、対立する人物間の統計的相違の原因となるパラメータを識別するコントラッシブ・プルーニング・ストラテジーを導入する。
本手法は完全にトレーニング不要であり,言語モデルの既存のパラメータ空間にのみ依存する。
さまざまな評価設定を通じて、結果として得られるサブネットは、外部知識を必要とするベースラインよりもはるかに強力なペルソナアライメントを示す。
本研究は,多種多様な人間の行動がLLMにのみ誘導されるのではなく,すでにパラメータ空間に埋め込まれており,大きな言語モデルにおける制御可能なパーソナライゼーションと解釈可能なパーソナライゼーションの新たな視点をめざしていることを示唆している。
関連論文リスト
- Us-vs-Them bias in Large Language Models [0.569978892646475]
基礎的大言語モデル間で、一貫した内集団陽性および外集団陰性な関連を見いだす。
調査対象者は,保守的ペルソナは対人関係が強く,リベラルなペルソナは対人関係が強かった。
論文 参考訳(メタデータ) (2025-12-03T07:11:22Z) - If an LLM Were a Character, Would It Know Its Own Story? Evaluating Lifelong Learning in LLMs [55.8331366739144]
大規模言語モデル(LLM)における生涯学習評価のためのベンチマークであるLIFESTATE-BENCHを紹介する。
我々の事実チェック評価は、パラメトリックと非パラメトリックの両方のアプローチで、モデルの自己認識、エピソードメモリ検索、関係追跡を探索する。
論文 参考訳(メタデータ) (2025-03-30T16:50:57Z) - Scaling Data Diversity for Fine-Tuning Language Models in Human Alignment [84.32768080422349]
人間の好みの調整は、大きな言語モデルが誤解を招くか有害なコンテンツを生成するのを防ぐ。
本研究では, 微調整後のLLMの最終性能と線形相関を示唆し, 即時多様性の新たな定式化を提案する。
論文 参考訳(メタデータ) (2024-03-17T07:08:55Z) - Quantifying the Persona Effect in LLM Simulations [25.367927300697424]
大規模言語モデル(LLM)は、人間の言語と振る舞いをシミュレートする際、顕著な可能性を示してきた。
本研究では,パーソナ変数のデコグラフィ,社会的,行動的要因の統合がLLMの多様な視点をシミュレートする能力にどのように影響するかを検討する。
既存の主観的NLPデータセットにおけるアノテーションの10%のばらつきをペルソナ変数が説明できることがわかった。
論文 参考訳(メタデータ) (2024-02-16T16:35:35Z) - Eliciting Personality Traits in Large Language Models [0.0]
大規模言語モデル(LLM)は採用の文脈において、候補者と雇用主の両方が利用している。
本研究は,異なる入力プロンプトに基づいて,それらの出力変動を調べることによって,そのようなモデルをよりよく理解することを目的とする。
論文 参考訳(メタデータ) (2024-02-13T10:09:00Z) - On the steerability of large language models toward data-driven personas [98.9138902560793]
大規模言語モデル(LLM)は、特定のグループや集団の意見が不足している偏りのある応答を生成することが知られている。
本稿では, LLM を用いて特定の視点の制御可能な生成を実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T19:01:13Z) - Personalized Soups: Personalized Large Language Model Alignment via
Post-hoc Parameter Merging [148.77027765872006]
パーソナライズされたヒューマンフィードバック(RLPHF)問題からの強化学習について検討する。
LLMは、多目的強化学習(MORL)問題としてアライメントをモデル化することで、複数の好みに整列する。
我々は、好みを複数の次元に分解することで、パーソナライズされたアライメントを実現することができることを示す。
論文 参考訳(メタデータ) (2023-10-17T20:22:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。