Fugu-MT 論文翻訳(概要): Do Personality Traits Interfere? Geometric Limitations of Steering in Large Language Models

論文の概要: Do Personality Traits Interfere? Geometric Limitations of Steering in Large Language Models

arxiv url: http://arxiv.org/abs/2602.15847v1
Date: Fri, 23 Jan 2026 15:37:07 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-23 12:01:13.644798
Title: Do Personality Traits Interfere? Geometric Limitations of Steering in Large Language Models
Title（参考訳）: 個人性は介入するか? 大規模言語モデルにおけるステアリングの幾何学的限界
Authors: Pranav Bhandari, Usman Naseem, Mehwish Nasim,
Abstract要約: 大規模言語モデル(LLM)におけるパーソナリティステアリングは、一般に、個性特性を独立に制御できると暗黙的に仮定して、特性固有のステアリングベクターを注入することに依存する。 2つのモデルファミリー(LLaMA-3-8BとMistral-8B)から抽出されたステアリングベクトルについて検討し、非拘束方向からソフト、ハードの正則化に至るまで、幾何条件スキームを適用した。以上の結果から, 直交重なりが明示的に除去された場合でも, 1つの特性が一貫した変化を引き起こすことが示唆された。厳密な正則化は幾何学的独立を強制するが、横断的な行動効果を排除せず、可能である。
参考スコア（独自算出の注目度）: 12.34382066368117
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Personality steering in large language models (LLMs) commonly relies on injecting trait-specific steering vectors, implicitly assuming that personality traits can be controlled independently. In this work, we examine whether this assumption holds by analysing the geometric relationships between Big Five personality steering directions. We study steering vectors extracted from two model families (LLaMA-3-8B and Mistral-8B) and apply a range of geometric conditioning schemes, from unconstrained directions to soft and hard orthonormalisation. Our results show that personality steering directions exhibit substantial geometric dependence: steering one trait consistently induces changes in others, even when linear overlap is explicitly removed. While hard orthonormalisation enforces geometric independence, it does not eliminate cross-trait behavioural effects and can reduce steering strength. These findings suggest that personality traits in LLMs occupy a slightly coupled subspace, limiting fully independent trait control.
Abstract（参考訳）: 大規模言語モデル(LLM)におけるパーソナリティステアリングは、一般に、個性特性を独立に制御できると暗黙的に仮定して、特性固有のステアリングベクターを注入することに依存する。本研究では,この仮定が,ビッグファイブ・パーソナリティ・ステアリングの方向の幾何学的関係を分析することによって成立するかどうかを検討する。 2つのモデルファミリー(LLaMA-3-8BとMistral-8B)から抽出されたステアリングベクトルについて検討し、非拘束方向からソフト、ハードの正則化に至るまで、幾何条件スキームを適用した。以上の結果から, 直交重なりが明示的に除去された場合でも, 1つの特性が連続的に他の特性の変化を引き起こすことが示唆された。硬直正則化は幾何学的独立を強制するが、横断的な行動効果を排除せず、操舵強度を低下させる。これらの結果から, LLMの性格特性は部分空間をわずかに結合し, 完全独立性に制限されていることが示唆された。

関連論文リスト

PERSONA: Dynamic and Compositional Inference-Time Personality Control via Activation Vector Algebra [84.59328460968872]
大規模言語モデルにおけるパーソナリティ制御の現在の手法は、静的なプロンプトや高価な微調整に依存している。ペルソナ(PERSONA)は、人格ベクトルを直接操作することで、微調整レベルのパフォーマンスを実現する訓練不要のフレームワークである。 PersonalityBenchでは、この手法は平均スコア9.60を達成し、教師付き微調整上界9.61とほぼ一致している。
論文参考訳（メタデータ） (2026-02-17T15:47:58Z)
Effects of personality steering on cooperative behavior in Large Language Model agents [0.0]
大規模言語モデル(LLM)におけるパーソナリティステアリングが協調行動に及ぼす影響を,Prisoner's Dilemmaゲームを用いて検討した。以上の結果から,すべてのモデルにおける協力を促進する要因として,一致性が重要であることが示唆された。露骨な人格情報は協力を増すが、搾取に対する脆弱性も引き起こす。
論文参考訳（メタデータ） (2026-01-08T14:23:45Z)
Linear Personality Probing and Steering in LLMs: A Big Five Study [0.7933052462113936]
本研究では,ビッグファイブの性格特性に整合した線形方向が,モデル行動の探索と操舵に有効かどうかを検討する。その結果,特徴スコアに整合した直線方向は人格検出に有効なプローブであることが示唆された。
論文参考訳（メタデータ） (2025-12-19T14:41:09Z)
The Geometry of Persona: Disentangling Personality from Reasoning in Large Language Models [6.115372688029641]
本稿では,線形表現仮説に基づくフレームワークであるSoul Engineを提案する。凍結したQwen-2.5ベース上のデュアルヘッドアーキテクチャを用いて、非絡み合ったパーソナリティベクトルを抽出する。このモデルは心理学的根拠の真実に対して0.011の平均二乗誤差(MSE)を達成する。
論文参考訳（メタデータ） (2025-12-08T02:00:57Z)
Activation-Space Personality Steering: Hybrid Layer Selection for Stable Trait Control in LLMs [10.99947795031516]
大きな言語モデルは、その世代において暗黙の個性を示すが、特定のニーズを満たすためにこれらの特性を確実に制御または調整することは、未解決の課題である。本稿では,大きな5つのパーソナリティ特性を用いて,変圧器層から隠れ状態のアクティベーションを抽出するパイプラインを提案する。本研究により, 人格特性が低ランク共有部分空間を占有し, これらの潜在構造を有効操舵機構に変換できることが判明した。
論文参考訳（メタデータ） (2025-10-29T05:56:39Z)
The Personality Illusion: Revealing Dissociation Between Self-Reports & Behavior in LLMs [60.15472325639723]
人格特性は、人間の行動の予測因子として長い間研究されてきた。近年のLarge Language Models (LLM) は, 人工システムに類似したパターンが出現する可能性を示唆している。
論文参考訳（メタデータ） (2025-09-03T21:27:10Z)
SAC: A Framework for Measuring and Inducing Personality Traits in LLMs with Dynamic Intensity Control [1.9282110216621835]
大規模言語モデル(LLM)は近年,幅広い分野において大きな注目を集めている。また、対話中に人間のような個性を表示するという期待も高まりつつある。既存のモデルは2つの大きな制限に直面している。それらは、粗いパーソナリティ次元のみを提供するBig Five (OCEAN)フレームワークに依存しており、特性強度を制御するメカニズムが欠如している。
論文参考訳（メタデータ） (2025-06-26T04:12:15Z)
Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models [86.88657425848547]
大型推論モデル(LRMs)はすでに長い連鎖推論のための潜在能力を持っている。我々は、自動生成の自己検証タスクを使用して、モデルに推論、帰納、誘拐の3つのメタ能力を持たせることを明確にした。我々の3つのステージ・パイプラインの個別アライメント、パラメータ空間のマージ、ドメイン固有の強化学習は、命令調整ベースラインと比較して10%以上のパフォーマンス向上を実現します。
論文参考訳（メタデータ） (2025-05-15T17:58:33Z)
Editing Personality for Large Language Models [73.59001811199823]
本稿では,Large Language Models (LLMs) の性格特性の編集に焦点をあてた革新的なタスクを紹介する。このタスクに対処する新しいベンチマークデータセットであるPersonalityEditを構築します。
論文参考訳（メタデータ） (2023-10-03T16:02:36Z)
Deep Active Latent Surfaces for Medical Geometries [51.82897666576424]
形状先行は、ノイズや不完全なデータから3次元形状を再構成する際に有効であることが知られている。本稿では,各頂点に別個の潜在ベクトルを持つ3次元メッシュの形状を表すハイブリッドアプローチを提案する。推論のために、潜伏ベクトルは空間正規化制約を課しながら独立に更新される。これにより、フレキシビリティと一般化能力の両方が得られ、いくつかの医療画像処理タスクで実演できることが示される。
論文参考訳（メタデータ） (2022-06-21T10:33:32Z)
Orthogonal Jacobian Regularization for Unsupervised Disentanglement in Image Generation [64.92152574895111]
直交ジャコビアン正規化法(OroJaR)を提案する。提案手法は, 絡み合った, 制御可能な画像生成に有効であり, 最先端の手法に対して好適に機能する。
論文参考訳（メタデータ） (2021-08-17T15:01:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。