論文の概要: Persona Vectors: Monitoring and Controlling Character Traits in Language Models
- arxiv url: http://arxiv.org/abs/2507.21509v1
- Date: Tue, 29 Jul 2025 05:20:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.748645
- Title: Persona Vectors: Monitoring and Controlling Character Traits in Language Models
- Title(参考訳): ペルソナベクトル:言語モデルにおける文字特性のモニタリングと制御
- Authors: Runjin Chen, Andy Arditi, Henry Sleight, Owain Evans, Jack Lindsey,
- Abstract要約: 大規模言語モデルは、シミュレーションされた"アシスタント"ペルソナを介してユーザと対話する。
モデルの活性化空間対人ベクトルの方向を同定する。
トレーニング中に発生する人格変化を予測・制御するためにペルソナベクトルを適用する。
- 参考スコア(独自算出の注目度): 6.782181537172027
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models interact with users through a simulated 'Assistant' persona. While the Assistant is typically trained to be helpful, harmless, and honest, it sometimes deviates from these ideals. In this paper, we identify directions in the model's activation space-persona vectors-underlying several traits, such as evil, sycophancy, and propensity to hallucinate. We confirm that these vectors can be used to monitor fluctuations in the Assistant's personality at deployment time. We then apply persona vectors to predict and control personality shifts that occur during training. We find that both intended and unintended personality changes after finetuning are strongly correlated with shifts along the relevant persona vectors. These shifts can be mitigated through post-hoc intervention, or avoided in the first place with a new preventative steering method. Moreover, persona vectors can be used to flag training data that will produce undesirable personality changes, both at the dataset level and the individual sample level. Our method for extracting persona vectors is automated and can be applied to any personality trait of interest, given only a natural-language description.
- Abstract(参考訳): 大規模言語モデルは、シミュレーションされた"アシスタント"ペルソナを介してユーザと対話する。
アシスタントは通常、役に立ち、無害で正直に訓練されるが、時にはこれらの理想から逸脱することもある。
本稿では,モデルが活性化する空間対人ベクトルの方向を同定する。
これらのベクトルは、デプロイ時にアシスタントの性格の変動を監視するために使用できることを確認します。
次に、トレーニング中に発生する人格変化を予測・制御するためにペルソナベクトルを適用する。
その結果、微調整後の意図的・意図しない性格変化は、関連するペルソナベクトルに沿った変化と強く相関していることがわかった。
これらのシフトは、ホック後の介入によって緩和されるか、あるいは新しい予防的ステアリング法によって、そもそも避けられる。
さらに、ペルソナベクトルは、データセットレベルと個々のサンプルレベルの両方において、望ましくないパーソナリティ変化を引き起こすトレーニングデータのフラグ付けに使用することができる。
人格ベクトルを抽出する手法は自動化されており、自然言語による記述のみを前提として、興味のある人格特性に応用することができる。
関連論文リスト
- Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。
KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。
本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文 参考訳(メタデータ) (2024-06-21T01:37:39Z) - Words in Motion: Extracting Interpretable Control Vectors for Motion Transformers [1.1510009152620668]
トランスフォーマーベースのモデルは、解釈が難しい隠された状態を生成する。
隠れた状態を解析し、推論で修正し、動き予測に焦点をあてる。
論文 参考訳(メタデータ) (2024-06-17T15:07:55Z) - Social-Transmotion: Promptable Human Trajectory Prediction [65.80068316170613]
Social-Transmotionは、多種多様な視覚的手がかりを利用して人間の行動を予測する、汎用トランスフォーマーベースのモデルである。
提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。
論文 参考訳(メタデータ) (2023-12-26T18:56:49Z) - Backpack Language Models [108.65930795825416]
Backpacksは、強力なモデリング性能と、解釈可能性と制御のためのインターフェースを組み合わせた、新しいニューラルアーキテクチャである。
学習のあと、感覚ベクトルが特殊化され、それぞれが単語の異なる側面を符号化することがわかった。
本稿では,感覚ベクトルに介入し,制御可能なテキスト生成とデバイアスを行うシンプルなアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-26T09:26:23Z) - Learning Bidirectional Action-Language Translation with Limited
Supervision and Incongruent Extra Input [14.548576165754804]
Paired Gated Autoencoders(PGAE)モデルを用いて、弱教師付き学習パラダイムをモデル化する。
本稿では,Paired Transformed Autoencoders (PTAE) モデルを提案する。
PTAEは、言語間および行動間翻訳において、かなり高い精度を達成する。
論文 参考訳(メタデータ) (2023-01-09T14:09:09Z) - A unified framework for dataset shift diagnostics [2.449909275410288]
教師付き学習技術は典型的には、訓練データが標的人口に由来すると仮定する。
しかし、データセットのシフトが頻繁に発生し、適切に考慮しなければ、予測器の性能が低下する可能性がある。
我々は、複数のデータセットシフトの定量化とテストを行うTectorShiftという、新しいフレキシブルなフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-17T13:34:45Z) - Learning Language and Multimodal Privacy-Preserving Markers of Mood from
Mobile Data [74.60507696087966]
精神状態は、先進医療に共通する国でも診断されていない。
人間の行動を監視するための有望なデータソースのひとつは、日々のスマートフォンの利用だ。
本研究では,自殺行動のリスクが高い青少年集団の移動行動のデータセットを用いて,日常生活の行動マーカーについて検討した。
論文 参考訳(メタデータ) (2021-06-24T17:46:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。