論文の概要: Activation-Space Personality Steering: Hybrid Layer Selection for Stable Trait Control in LLMs
- arxiv url: http://arxiv.org/abs/2511.03738v1
- Date: Wed, 29 Oct 2025 05:56:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.155013
- Title: Activation-Space Personality Steering: Hybrid Layer Selection for Stable Trait Control in LLMs
- Title(参考訳): アクティブ空間のパーソナリティステアリング:LCMにおける安定経路制御のためのハイブリッド層選択
- Authors: Pranav Bhandari, Nicolas Fay, Sanjeevan Selvaganapathy, Amitava Datta, Usman Naseem, Mehwish Nasim,
- Abstract要約: 大きな言語モデルは、その世代において暗黙の個性を示すが、特定のニーズを満たすためにこれらの特性を確実に制御または調整することは、未解決の課題である。
本稿では,大きな5つのパーソナリティ特性を用いて,変圧器層から隠れ状態のアクティベーションを抽出するパイプラインを提案する。
本研究により, 人格特性が低ランク共有部分空間を占有し, これらの潜在構造を有効操舵機構に変換できることが判明した。
- 参考スコア(独自算出の注目度): 10.99947795031516
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models exhibit implicit personalities in their generation, but reliably controlling or aligning these traits to meet specific needs remains an open challenge. The need for effective mechanisms for behavioural manipulation of the model during generation is a critical gap in the literature that needs to be fulfilled. Personality-aware LLMs hold a promising direction towards this objective. However, the relationship between these psychological constructs and their representations within LLMs remains underexplored and requires further investigation. Moreover, it is intriguing to understand and study the use of these representations to steer the models' behaviour. We propose a novel pipeline that extracts hidden state activations from transformer layers using the Big Five Personality Traits (Openness, Conscientiousness, Extraversion, Agreeableness and Neuroticism), which is a comprehensive and empirically validated framework to model human personality applies low-rank subspace discovery methods, and identifies trait-specific optimal layers across different model architectures for robust injection. The resulting personality-aligned directions are then operationalised through a flexible steering framework with dynamic layer selection, enabling precise control of trait expression in LLM outputs. Our findings reveal that personality traits occupy a low-rank shared subspace, and that these latent structures can be transformed into actionable mechanisms for effective steering through careful perturbations without impacting the fluency, variance and general capabilities, helping to bridge the gap between psychological theory and practical model alignment.
- Abstract(参考訳): 大きな言語モデルは、その世代において暗黙の個性を示すが、特定のニーズを満たすためにこれらの特性を確実に制御または調整することは、未解決の課題である。
生成中のモデルの振る舞いを効果的に操作するためのメカニズムの必要性は、満たすべき文献における重要なギャップである。
パーソナリティを意識したLLMは、この目標に向けて有望な方向性を持っている。
しかし、これらの心理的構成物とLSM内のそれらの表現との関係は未解明のままであり、さらなる調査が必要である。
さらに、モデルの振る舞いを操縦するためにこれらの表現を理解し、研究することが興味深い。
人格をモデル化するための包括的かつ実証的に検証されたフレームワークであるBig Five Personality Traits (Openness, Conscientiousness, Extraversion, Agreeableness and Neuroticism) を用いて,トランスフォーマー層から隠れた状態活性化を抽出するパイプラインを提案する。
結果のパーソナライズされた方向は、動的層選択によるフレキシブルなステアリングフレームワークを通じて操作され、LCM出力における特性表現の正確な制御を可能にする。
本研究は, 人格特性が低ランク共有部分空間を占有し, これらの潜在構造が, 気流, 分散, 一般能力に影響を与えることなく, 効果的な操舵機構に変換され, 心理的理論と実用的なモデルアライメントのギャップを埋める助けとなることを明らかにする。
関連論文リスト
- From Narrative to Action: A Hierarchical LLM-Agent Framework for Human Mobility Generation [3.242664635630543]
大きな言語モデル(LLM)は潜在的な可能性を示すが、厳密な構造的コンプライアンスと創造的推論のバランスをとるのに苦労する。
本研究では,ハイレベルな物語推論,中間レベルのリフレクティブプランニングを統合した階層型LLM-Agentフレームワークを提案する。
本研究では,データ駆動型パラダイムから空間駆動型シミュレーションへの合成モビリティ生成を推し進める。
論文 参考訳(メタデータ) (2025-10-28T00:26:36Z) - The Personality Illusion: Revealing Dissociation Between Self-Reports & Behavior in LLMs [60.15472325639723]
人格特性は、人間の行動の予測因子として長い間研究されてきた。
近年のLarge Language Models (LLM) は, 人工システムに類似したパターンが出現する可能性を示唆している。
論文 参考訳(メタデータ) (2025-09-03T21:27:10Z) - IROTE: Human-like Traits Elicitation of Large Language Model via In-Context Self-Reflective Optimization [66.6349183886101]
IROTEは,安定かつ伝達可能な特性抽出のための新しいインコンテキスト手法である。
IROTEが生成する1つの自己反射は、様々な下流タスクにまたがる目標特性の安定な偽造を LLM が引き起こすことを示す。
論文 参考訳(メタデータ) (2025-08-12T08:04:28Z) - SAC: A Framework for Measuring and Inducing Personality Traits in LLMs with Dynamic Intensity Control [1.9282110216621835]
大規模言語モデル(LLM)は近年,幅広い分野において大きな注目を集めている。
また、対話中に人間のような個性を表示するという期待も高まりつつある。
既存のモデルは2つの大きな制限に直面している。それらは、粗いパーソナリティ次元のみを提供するBig Five (OCEAN)フレームワークに依存しており、特性強度を制御するメカニズムが欠如している。
論文 参考訳(メタデータ) (2025-06-26T04:12:15Z) - Enhancing Multiple Dimensions of Trustworthiness in LLMs via Sparse Activation Control [44.326363467045496]
大規模言語モデル(LLM)は、ヒューマンフィードバック(RLHF)からの強化学習において重要な研究領域となっている。
表現工学は、新しい、トレーニングなしのアプローチを提供する。
この手法は意味的特徴を利用してLLMの中間隠れ状態の表現を制御する。
正直さや安全性などの様々な意味内容を特異な意味的特徴に符号化することは困難である。
論文 参考訳(メタデータ) (2024-11-04T08:36:03Z) - Neuron-based Personality Trait Induction in Large Language Models [115.08894603023712]
大規模言語モデル (LLM) は、様々な性格特性をシミュレートする能力が増している。
LLMにおけるパーソナリティ特性誘導のためのニューロンに基づくアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-16T07:47:45Z) - Exploring the Personality Traits of LLMs through Latent Features Steering [12.142248881876355]
本研究では, 文化的規範や環境ストレス要因などの要因が, 大規模言語モデル(LLM)内でどのように性格特性を形作るかを検討する。
本研究では,モデル内の要因に対応する潜在特徴を抽出し,ステアリングすることで,モデルの振る舞いを変更する訓練自由アプローチを提案する。
論文 参考訳(メタデータ) (2024-10-07T21:02:34Z) - PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
データ構築とモデルチューニングを改善するためのフレームワークPersLLMを提案する。
データ利用が不十分な場合には、Chain-of-Thoughtプロンプトやアンチインダクションといった戦略を取り入れます。
厳密な振舞いパターンを設計し,モデルの性格の特異性とダイナミズムを高めるために自動DPOを導入する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - Tuning-Free Accountable Intervention for LLM Deployment -- A
Metacognitive Approach [55.613461060997004]
大規模言語モデル(LLM)は、自然言語処理タスクの幅広い領域にわたる変換的進歩を触媒している。
我々は,自己認識型誤り識別と訂正機能を備えたLLMを実現するために,textbfCLEARと呼ばれる革新的なテキストメタ認知手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T19:18:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。