論文の概要: Tracing Persona Vectors Through LLM Pretraining
- arxiv url: http://arxiv.org/abs/2605.13329v1
- Date: Wed, 13 May 2026 10:44:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.989255
- Title: Tracing Persona Vectors Through LLM Pretraining
- Title(参考訳): LLMプレトレーニングによるペルソナベクトルの追跡
- Authors: Viktor Moskvoretskii, Dominik Glandorf, Jorge Medina Moreira, Tanja Käser, Robert West,
- Abstract要約: 言語モデルは、内部的にハイレベルな振る舞いを表すかは、AIの安全性に直接関連した、中核的な解釈可能性の問題である。
近年の研究では、悪や梅毒のような特徴は、内的活性化の線形方向、いわゆるペルソナベクトルに対応することが示されている。
OLMo-3プレトレーニングの0.22%以内において、ペルソナベクトルは驚くほど早い段階で形成され、完全に訓練後のインストラクションモデルのステアリングに有効であることがわかった。
- 参考スコア(独自算出の注目度): 16.7064056526422
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: How large language models internally represent high-level behaviors is a core interpretability question with direct relevance to AI safety: it determines what we can detect, audit, or intervene on. Recent work has shown that traits such as evil or sycophancy correspond to linear directions in the internal activations, the so-called persona vectors. Although these vectors are now routinely utilized to inspect and steer model behavior in safety-relevant settings, how these representations are formed during training remains unknown. To address this gap, we trace persona vectors across the pretraining of OLMo-3-7B, finding that persona vectors form remarkably early -- within 0.22% of OLMo-3 pretraining -- and remain effective for steering the fully post-trained instruct models. Although core representations are formed early on, persona vectors continue to refine geometrically and semantically throughout pretraining. We further compare alternative elicitation strategies and find that all yield effective directions, with each strategy surfacing qualitatively distinct facets of the underlying persona. Replicating our analysis on Apertus-8B reveals that our findings transfer qualitatively beyond OLMo-3. Our results establish persona representations as stable features of early pretraining and open a path to studying how training forms, refines, and shapes them.
- Abstract(参考訳): 言語モデルは、内部的にハイレベルな振る舞いを表すかは、AIの安全性に直接関連している、中核的な解釈可能性の問題である。
近年の研究では、悪や梅毒のような特徴は、内的活性化の線形方向、いわゆるペルソナベクトルに対応することが示されている。
これらのベクトルは、現在、安全関連設定におけるモデル動作の検査とステアリングに日常的に使用されているが、これらの表現がトレーニング中にどのように形成されるかは不明である。
このギャップに対処するため、OLMo-3-7Bの事前訓練にまたがるペルソナベクターを追跡した結果、OLMo-3事前訓練の0.22%以内にペルソナベクターが著しく早期に形成され、完全なポストトレーニングされたインストラクションモデルのステアリングに有効であることが判明した。
コア表現は早期に形成されるが、ペルソナベクトルは事前学習を通して幾何学的・意味的に洗練され続けている。
さらに,提案手法の代替策を比較し,各戦略が基礎となるペルソナの質的に異なる面を覆い隠すことにより,すべての方角が有効であることを示す。
Apertus-8Bによる分析の結果,OLMo-3以上の定性的な転移が認められた。
本研究は,早期事前訓練の安定的な特徴としてペルソナ表現を確立し,学習形態,洗練,形成の方法を学ぶための道を開いた。
関連論文リスト
- PERSONA: Dynamic and Compositional Inference-Time Personality Control via Activation Vector Algebra [84.59328460968872]
大規模言語モデルにおけるパーソナリティ制御の現在の手法は、静的なプロンプトや高価な微調整に依存している。
ペルソナ(PERSONA)は、人格ベクトルを直接操作することで、微調整レベルのパフォーマンスを実現する訓練不要のフレームワークである。
PersonalityBenchでは、この手法は平均スコア9.60を達成し、教師付き微調整上界9.61とほぼ一致している。
論文 参考訳(メタデータ) (2026-02-17T15:47:58Z) - Open Character Training: Shaping the Persona of AI Assistants through Constitutional AI [4.153803842911732]
「AIアシスタント」ペルソナは表面的な行動と明白な価値観、信念、倫理の両方に影響を及ぼす。
キャラクタトレーニングは産業のポストトレーニングの重要な要素であるが、学術文献では事実上研究されていない。
我々は、コンスティチューショナルAIと新しいデータパイプラインを活用して、文字トレーニングの最初のオープン実装を紹介する。
論文 参考訳(メタデータ) (2025-11-03T15:53:47Z) - Small Vectors, Big Effects: A Mechanistic Study of RL-Induced Reasoning via Steering Vectors [12.331740215947677]
ベースモデルの残留流路に挿入された軽量ステアリングベクトルについて検討し,強化学習目標を用いて訓練を行った。
i)最後の層ステアリングベクトルは、第1生成トークンに集中したトークン置換バイアスのように振舞い、"To"や"Step"のようなトークンを一貫して増加させる。
また, (i) ステアリングベクトルが他のモデルに遷移し, (ii) 独立に訓練された場合, (iii) 適応的なトークンワイドスケーリングの下で意味のあるプロンプトセグメントに集中して, 層間を結合することを示す。
論文 参考訳(メタデータ) (2025-09-08T12:26:31Z) - Prior Learning in Introspective VAEs [26.51505732100697]
変分オートエンコーダ(VAE)は教師なし学習とデータ生成のための一般的なフレームワークである。
本研究では,イントロスペクティブVAEファミリーの2人のうちの1人であるSoft-IntroVAE(S-IntroVAE)に焦点を当てた。
本稿では,このS-IntroVAEに,マルチモーダルでトレーニング可能なプリエンプティブを組み込むことの意味について検討する。
論文 参考訳(メタデータ) (2024-08-25T10:54:25Z) - Initialization Matters for Adversarial Transfer Learning [61.89451332757625]
我々は、逆向きに頑健な事前訓練モデルの必要性を発見する。
本稿では, 対向線形探索により得られる重み付き線形ヘッドを初期化する対向微調整のためのロバスト線形初期化法(RoLI)を提案する。
5つの異なる画像分類データセットにおいて,RoLIの有効性を実証し,新しい最先端結果を得た。
論文 参考訳(メタデータ) (2023-12-10T00:51:05Z) - A Study of Forward-Forward Algorithm for Self-Supervised Learning [65.268245109828]
本研究では,自己指導型表現学習におけるフォワードとバックプロパゲーションのパフォーマンスについて検討する。
我々の主な発見は、フォワードフォワードアルゴリズムが(自己教師付き)トレーニング中にバックプロパゲーションに相容れないように機能するのに対し、転送性能は研究されたすべての設定において著しく遅れていることである。
論文 参考訳(メタデータ) (2023-09-21T10:14:53Z) - SignBERT+: Hand-model-aware Self-supervised Pre-training for Sign
Language Understanding [132.78015553111234]
手の動きは手話の表現において重要な役割を担っている。
現在,手話理解(SLU)の深層学習手法は,手話データ資源の不足により過度に適合する傾向にある。
モデル認識ハンドを組み込んだ初の自己教師型事前学習型SignBERT+フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-08T17:16:38Z) - On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。
我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文 参考訳(メタデータ) (2021-09-08T10:39:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。