論文の概要: The Assistant Axis: Situating and Stabilizing the Default Persona of Language Models
- arxiv url: http://arxiv.org/abs/2601.10387v1
- Date: Thu, 15 Jan 2026 13:40:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.145853
- Title: The Assistant Axis: Situating and Stabilizing the Default Persona of Language Models
- Title(参考訳): 補助的軸:言語モデルのデフォルトペルソナの選定と安定化
- Authors: Christina Lu, Jack Gallagher, Jonathan Michala, Kyle Fish, Jack Lindsey,
- Abstract要約: 本研究では,多種多様な文字アーチタイプに対応するアクティベーション方向を抽出することにより,モデルペルソナの空間構造について検討する。
このペルソナ空間の主成分は"Assistant Axis"であり、モデルがデフォルトのAssistantモードで動作している範囲をキャプチャする。
補助軸に沿った偏差を測定することは「ペルソナの漂流」を予測し、モデルが典型的なペルソナとは相容れない有害または奇異な行動を示す現象に陥る現象である。
- 参考スコア(独自算出の注目度): 1.5247897700689181
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models can represent a variety of personas but typically default to a helpful Assistant identity cultivated during post-training. We investigate the structure of the space of model personas by extracting activation directions corresponding to diverse character archetypes. Across several different models, we find that the leading component of this persona space is an "Assistant Axis," which captures the extent to which a model is operating in its default Assistant mode. Steering towards the Assistant direction reinforces helpful and harmless behavior; steering away increases the model's tendency to identify as other entities. Moreover, steering away with more extreme values often induces a mystical, theatrical speaking style. We find this axis is also present in pre-trained models, where it primarily promotes helpful human archetypes like consultants and coaches and inhibits spiritual ones. Measuring deviations along the Assistant Axis predicts "persona drift," a phenomenon where models slip into exhibiting harmful or bizarre behaviors that are uncharacteristic of their typical persona. We find that persona drift is often driven by conversations demanding meta-reflection on the model's processes or featuring emotionally vulnerable users. We show that restricting activations to a fixed region along the Assistant Axis can stabilize model behavior in these scenarios -- and also in the face of adversarial persona-based jailbreaks. Our results suggest that post-training steers models toward a particular region of persona space but only loosely tethers them to it, motivating work on training and steering strategies that more deeply anchor models to a coherent persona.
- Abstract(参考訳): 大規模な言語モデルはさまざまなペルソナを表現できるが、通常、訓練後に栽培される補助的なアシスタントアイデンティティにデフォルトとなる。
本研究では,多種多様な文字アーチタイプに対応するアクティベーション方向を抽出することにより,モデルペルソナの空間構造について検討する。
いくつかの異なるモデルにおいて、このペルソナ空間の主要なコンポーネントは、モデルがデフォルトのAssistantモードで動作している範囲をキャプチャする"Assistant Axis"であることがわかった。
アシスタントの方向に向けてのステアリングは、有用で無害な振る舞いを強化する; ステアリングは、モデルを他のエンティティとして識別する傾向を高める。
さらに、より極端な価値で立ち去ることは、しばしば神秘的で演劇的な話し方を引き起こす。
この軸は、訓練済みのモデルにも存在し、主にコンサルタントやコーチのような有用な人間のアーチタイプを促進し、スピリチュアルなモデルを抑制する。
補助軸に沿った偏差を測定することは「ペルソナの漂流」を予測し、モデルが典型的なペルソナとは相容れない有害または奇異な行動を示す現象に陥る。
ペルソナの漂流は、しばしばモデルのプロセスにメタリフレクションを要求する会話や、感情的に脆弱なユーザーを特徴付ける会話によって引き起こされる。
我々は、アクティベーションをAssistant Axisに沿った固定領域に制限することは、これらのシナリオにおけるモデル動作を安定化させる可能性があることを示し、また、敵対的なペルソナベースのジェイルブレイクに直面している。
以上の結果から,ポストトレーニング後のステアリングモデルがペルソナ空間の特定の領域に向いているが,それを緩やかに結ぶだけで,より密着したペルソナにモデルをより深く定着させるようなトレーニングとステアリング戦略への取り組みを動機付けることが示唆された。
関連論文リスト
- Persona Vectors: Monitoring and Controlling Character Traits in Language Models [11.039979968884575]
大規模言語モデルは、シミュレーションされた"アシスタント"ペルソナを介してユーザと対話する。
モデルの活性化空間対人ベクトルの方向を同定する。
トレーニング中に発生する人格変化を予測・制御するためにペルソナベクトルを適用する。
論文 参考訳(メタデータ) (2025-07-29T05:20:14Z) - Eliciting Language Model Behaviors with Investigator Agents [93.34072434845162]
言語モデルは、自由形式のテキストで促されるとき、複雑で多様な振る舞いを示す。
本研究の目的は,特定の対象行動を引き起こすプロンプトを探索することである。
我々は調査員モデルを訓練し、ランダムに目的とする振る舞いを、それらを引き出す出力の多様な分布にマッピングする。
論文 参考訳(メタデータ) (2025-02-03T10:52:44Z) - Unified Dynamic Scanpath Predictors Outperform Individually Trained Neural Models [18.327960366321655]
本研究では,ビデオ中のスキャンパスを予測するために,ディープラーニングに基づくソーシャルキュー統合モデルを構築した。
我々は,自由視聴条件下で観察された動的な社会シーンの視線に対するアプローチを評価した。
結果は、すべての観察者のスキャンパスに基づいて訓練された単一の統一モデルが、個別に訓練されたモデルよりも同等以上のパフォーマンスを示すことを示している。
論文 参考訳(メタデータ) (2024-05-05T13:15:11Z) - Closely Interactive Human Reconstruction with Proxemics and Physics-Guided Adaption [64.07607726562841]
既存の人間再建アプローチは主に、正確なポーズの回復や侵入を避けることに焦点を当てている。
本研究では,モノクロ映像から密に対話的な人間を再構築する作業に取り組む。
本稿では,視覚情報の欠如を補うために,確率的行動や物理からの知識を活用することを提案する。
論文 参考訳(メタデータ) (2024-04-17T11:55:45Z) - DriveAdapter: Breaking the Coupling Barrier of Perception and Planning
in End-to-End Autonomous Driving [64.57963116462757]
最先端の手法は通常、教師-学生のパラダイムに従う。
学生モデルは、生のセンサーデータのみにアクセスし、教師モデルによって収集されたデータに基づいて行動クローニングを行う。
本稿では,学生(知覚)と教師(計画)モジュール間の機能アライメント目的関数を持つアダプタを用いたDriveAdapterを提案する。
論文 参考訳(メタデータ) (2023-08-01T09:21:53Z) - Harnessing Perceptual Adversarial Patches for Crowd Counting [92.79051296850405]
群衆のカウントは、物理的な世界の敵の例に弱い。
本稿では,モデル間での知覚的特徴の共有を学習するためのPAP(Perceptual Adrial Patch)生成フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-16T13:51:39Z) - FixMyPose: Pose Correctional Captioning and Retrieval [67.20888060019028]
本稿では,自動ポーズ修正システムに対応する新しいキャプションデータセットfixmyposeを提案する。
我々は「現在の」ポーズを「ターゲット」ポーズのように見えるように修正する記述を収集する。
MLバイアスを避けるため、さまざまな階層を持つキャラクタ間のバランスを維持します。
論文 参考訳(メタデータ) (2021-04-04T21:45:44Z) - Learning to Move with Affordance Maps [57.198806691838364]
物理的な空間を自律的に探索し、ナビゲートする能力は、事実上あらゆる移動型自律エージェントの基本的な要件である。
従来のSLAMベースの探索とナビゲーションのアプローチは、主にシーン幾何学の活用に重点を置いている。
学習可能な余剰マップは探索と航法の両方において従来のアプローチの強化に利用でき、性能が大幅に向上することを示します。
論文 参考訳(メタデータ) (2020-01-08T04:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。