論文の概要: Linear Personality Probing and Steering in LLMs: A Big Five Study
- arxiv url: http://arxiv.org/abs/2512.17639v1
- Date: Fri, 19 Dec 2025 14:41:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.438023
- Title: Linear Personality Probing and Steering in LLMs: A Big Five Study
- Title(参考訳): LLMにおけるリニアパーソナリティ調査とステアリング : 大きな5つの研究
- Authors: Michel Frising, Daniel Balcells,
- Abstract要約: 本研究では,ビッグファイブの性格特性に整合した線形方向が,モデル行動の探索と操舵に有効かどうかを検討する。
その結果,特徴スコアに整合した直線方向は人格検出に有効なプローブであることが示唆された。
- 参考スコア(独自算出の注目度): 0.7933052462113936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) exhibit distinct and consistent personalities that greatly impact trust and engagement. While this means that personality frameworks would be highly valuable tools to characterize and control LLMs' behavior, current approaches remain either costly (post-training) or brittle (prompt engineering). Probing and steering via linear directions has recently emerged as a cheap and efficient alternative. In this paper, we investigate whether linear directions aligned with the Big Five personality traits can be used for probing and steering model behavior. Using Llama 3.3 70B, we generate descriptions of 406 fictional characters and their Big Five trait scores. We then prompt the model with these descriptions and questions from the Alpaca questionnaire, allowing us to sample hidden activations that vary along personality traits in known, quantifiable ways. Using linear regression, we learn a set of per-layer directions in activation space, and test their effectiveness for probing and steering model behavior. Our results suggest that linear directions aligned with trait-scores are effective probes for personality detection, while their steering capabilities strongly depend on context, producing reliable effects in forced-choice tasks but limited influence in open-ended generation or when additional context is present in the prompt.
- Abstract(参考訳): 大規模言語モデル(LLM)は、信頼とエンゲージメントに大きな影響を及ぼす独特で一貫した個性を示す。
これは、パーソナリティフレームワークがLLMの振る舞いを特徴づけ、制御するための非常に価値のあるツールであることを意味するが、現在のアプローチはコストがかかる(トレーニング後)か不安定な(プロンプトエンジニアリング)かのどちらかである。
線形方向による探索と操舵は、最近、安価で効率的な代替手段として登場した。
本稿では,ビッグファイブの性格特性に整合した線形方向が,モデル行動の探索と操舵に有効かどうかを考察する。
Llama 3.3 70Bを用いて406の架空のキャラクターとその5つの特徴スコアを記述する。
そして、これらの記述と質問をAlpacaのアンケートからモデルに促し、既知の定量的な方法で人格の特徴に沿って変化する隠れたアクティベーションをサンプリングする。
線形回帰法を用いて、活性化空間における層間方向の集合を学習し、それらのモデル挙動の探索とステアリングの有効性を検証した。
その結果,特徴スコアに整合した直線方向は人格検出に有効なプローブであり,その操舵能力は文脈に強く依存し,強制選択タスクでは信頼性が向上するが,オープン・エンド・ジェネレーションやアクティベーションに付加的な文脈が存在する場合に限定的な影響が生じることが示唆された。
関連論文リスト
- Steering Latent Traits, Not Learned Facts: An Empirical Study of Activation Control Limits [0.0]
大規模言語モデル(LLM)は、多様なアプリケーションにまたがる安全かつ効果的なデプロイメントのために、正確な振る舞い制御を必要とする。
本研究では, ステアリングの有効性が, 異なる行動種によってどのように異なるのか, 対象行動の性質がステアリングの成功を予測することができるのか, という課題に焦点をあてる。
論文 参考訳(メタデータ) (2025-11-23T04:28:41Z) - Activation-Space Personality Steering: Hybrid Layer Selection for Stable Trait Control in LLMs [10.99947795031516]
大きな言語モデルは、その世代において暗黙の個性を示すが、特定のニーズを満たすためにこれらの特性を確実に制御または調整することは、未解決の課題である。
本稿では,大きな5つのパーソナリティ特性を用いて,変圧器層から隠れ状態のアクティベーションを抽出するパイプラインを提案する。
本研究により, 人格特性が低ランク共有部分空間を占有し, これらの潜在構造を有効操舵機構に変換できることが判明した。
論文 参考訳(メタデータ) (2025-10-29T05:56:39Z) - The Personality Illusion: Revealing Dissociation Between Self-Reports & Behavior in LLMs [60.15472325639723]
人格特性は、人間の行動の予測因子として長い間研究されてきた。
近年のLarge Language Models (LLM) は, 人工システムに類似したパターンが出現する可能性を示唆している。
論文 参考訳(メタデータ) (2025-09-03T21:27:10Z) - Scaling Personality Control in LLMs with Big Five Scaler Prompts [1.534667887016089]
制御可能なパーソナリティ特性を持つ大規模言語モデルを条件付けるための,プロンプトベースのフレームワークであるBig5-Scalerを提案する。
自然言語のプロンプトに数値特性値を埋め込むことで,学習を伴わずに微粒なパーソナリティ制御が可能となる。
論文 参考訳(メタデータ) (2025-08-08T09:11:05Z) - Neuron-based Personality Trait Induction in Large Language Models [115.08894603023712]
大規模言語モデル (LLM) は、様々な性格特性をシミュレートする能力が増している。
LLMにおけるパーソナリティ特性誘導のためのニューロンに基づくアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-16T07:47:45Z) - Rediscovering the Latent Dimensions of Personality with Large Language Models as Trait Descriptors [4.814107439144414]
大規模言語モデル(LLM)における潜在人格次元を明らかにする新しいアプローチを提案する。
実験の結果, LLMは, 直接アンケート入力に頼ることなく, 外転, 同意性, 良性, 神経性, 開放性などの中核的性格を「発見」することがわかった。
抽出した主成分を用いて、ビッグファイブ次元に沿ったパーソナリティを評価し、微調整モデルよりも平均的なパーソナリティ予測精度を最大5%向上させることができる。
論文 参考訳(メタデータ) (2024-09-16T00:24:40Z) - LLMvsSmall Model? Large Language Model Based Text Augmentation Enhanced
Personality Detection Model [58.887561071010985]
パーソナリティ検出は、ソーシャルメディア投稿に根ざした性格特性を検出することを目的としている。
既存のほとんどのメソッドは、事前訓練された言語モデルを微調整することで、ポスト機能を直接学習する。
本稿では,大規模言語モデル (LLM) に基づくテキスト拡張強化人格検出モデルを提案する。
論文 参考訳(メタデータ) (2024-03-12T12:10:18Z) - Eliciting Personality Traits in Large Language Models [0.0]
大規模言語モデル(LLM)は採用の文脈において、候補者と雇用主の両方が利用している。
本研究は,異なる入力プロンプトに基づいて,それらの出力変動を調べることによって,そのようなモデルをよりよく理解することを目的とする。
論文 参考訳(メタデータ) (2024-02-13T10:09:00Z) - Editing Personality for Large Language Models [73.59001811199823]
本稿では,Large Language Models (LLMs) の性格特性の編集に焦点をあてた革新的なタスクを紹介する。
このタスクに対処する新しいベンチマークデータセットであるPersonalityEditを構築します。
論文 参考訳(メタデータ) (2023-10-03T16:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。