論文の概要: Do Linear Probes Generalize Better in Persona Coordinates?
- arxiv url: http://arxiv.org/abs/2605.09391v1
- Date: Sun, 10 May 2026 07:38:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.22609
- Title: Do Linear Probes Generalize Better in Persona Coordinates?
- Title(参考訳): リニアプローブはペルソナコーディネートでより一般化するか?
- Authors: Prasad Mahadik, Adrians Skapars,
- Abstract要約: 有害な振る舞いをより強固に捉えたモデル内部の低次元部分空間が存在するかどうかを考察する。
我々は、対照的なペルソナプロンプトを用いて、偽りと偽りのためのペルソナ軸を構築する。
我々は,ペルソナ由来の方向が非自明に伝達されることを示し,ペルソナPCプロジェクションで訓練されたプローブは,生のアクティベーションで訓練されたプローブよりも一般化されていることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It is becoming increasingly necessary to have monitors check for harmful behaviors during language model interactions, but text-only monitoring has not been sufficient. This is because models sometimes exhibit strategic deception and sandbagging, changing their behavior during evaluation. This motivates the use of white-box monitors like linear probes, which can read the model internals directly. Currently, such probes can fail under distribution shift, limiting their usefulness in real settings. We study whether there exists a low-dimensional subspace of the model internals that captures harmful behaviors more robustly, while leaving out spuriously correlative features. Inspired by the Assistant Axis and Persona Selection Model, we construct persona axes for deception and sycophancy using contrastive persona prompts. The first principal components, obtained by unsupervised PCA of the persona-specific vectors, cleanly separate harmful and harmless personas. Across 10 evaluation datasets, we show that persona-derived directions transfer non-trivially and probes trained on persona-PC projections generalize better than probes trained on raw activations. We also find that a unified axis consisting of multiple harmful and harmless behaviors improves generalization across behaviors and datasets. Overall, persona vectors provide a useful inductive bias for building more transferable behavior probes.
- Abstract(参考訳): 言語モデルのインタラクション中に有害な振る舞いをチェックするモニターの必要性がますます高まっているが、テキストのみのモニタリングでは不十分である。
これは、モデルが時に戦略的な騙しやサンドバッグングを示し、評価中に行動を変えるためである。
これは線形プローブのようなホワイトボックスモニターの使用を動機付け、モデルの内部を直接読み取ることができる。
現在、そのようなプローブは分散シフトでフェールし、実際の設定での有用性を制限することができる。
モデル内部の低次元部分空間が存在し、有害な振る舞いをより強固に捉えつつ、突発的に相関する特徴を残しているかどうかを考察する。
補助軸とペルソナ選択モデルにインスパイアされた我々は、対照的なペルソナのプロンプトを用いて、騙しと幻覚のためのペルソナ軸を構築する。
第1の主成分は、ペルソナ特異的ベクターの教師なしPCAによって得られ、有害で無害なペルソナをきれいに分離する。
10個の評価データセットを用いて,ペルソナ由来の方向が非自明に伝達されることを示し,ペルソナPCプロジェクションで訓練されたプローブは,生のアクティベーションで訓練されたプローブよりも一般化されていることを示す。
また、複数の有害かつ無害な行動からなる統一軸は、行動やデータセット間の一般化を改善することも見出した。
全体として、ペルソナベクトルはより伝達可能な振る舞いプローブを構築するのに有用な誘導バイアスを与える。
関連論文リスト
- Building Better Deception Probes Using Targeted Instruction Pairs [1.610762469264735]
線形プローブは、騙し行動のためのAIシステムを監視するための有望なアプローチである。
本稿では,トレーニング中に使用する命令ペアの重要性を明らかにする。
本研究は,人為的に解釈可能な擬人化分類による特定の擬人化行動のターゲティングが,評価データセットの改善につながることを示す。
論文 参考訳(メタデータ) (2026-02-01T20:18:11Z) - PersonaDrift: A Benchmark for Temporal Anomaly Detection in Language-Based Dementia Monitoring [0.9668407688201359]
PersonaDriftは、日々のコミュニケーションの進行的な変化を検出するための機械学習と統計的手法を評価するために設計されたベンチマークである。
このベンチマークは、介護者が特に有能であると強調した2種類の縦方向の変化に焦点を当てている。
予備的な結果は, ベースライン変動率の低いユーザにおいて, 単純な統計モデルを用いて, 平坦感が検出できることを示唆している。
論文 参考訳(メタデータ) (2025-11-20T15:15:00Z) - Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents [58.00130492861884]
TraitBasisは、AIエージェントを体系的にストレステストするための軽量でモデルに依存しない方法である。
TraitBasisは、ステアブルなユーザ特性に対応するアクティベーション空間で方向を学習する。
We observed on average a 2%-30% performance degradation on $tau$-Trait across frontier model。
論文 参考訳(メタデータ) (2025-10-06T05:03:57Z) - Persona Vectors: Monitoring and Controlling Character Traits in Language Models [11.039979968884575]
大規模言語モデルは、シミュレーションされた"アシスタント"ペルソナを介してユーザと対話する。
モデルの活性化空間対人ベクトルの方向を同定する。
トレーニング中に発生する人格変化を予測・制御するためにペルソナベクトルを適用する。
論文 参考訳(メタデータ) (2025-07-29T05:20:14Z) - Modeling User Preferences via Brain-Computer Interfacing [54.3727087164445]
我々はBrain-Computer Interface技術を用いてユーザの好みを推測し、その注意力は視覚的コンテンツと感情的体験との関連性に相関する。
我々はこれらを,情報検索,生成モデルのパーソナライズされたステアリング,感情経験のクラウドソーシング人口推定など,関連するアプリケーションにリンクする。
論文 参考訳(メタデータ) (2024-05-15T20:41:46Z) - Pedestrian Detection: Domain Generalization, CNNs, Transformers and
Beyond [82.37430109152383]
その結果、現在の歩行者検知器は、クロスデータセット評価において、たとえ小さな領域シフトであっても処理が不十分であることがわかった。
限定的な一般化は、その方法と現在のデータ源の2つの主要な要因に帰着する。
本稿では、一般化を改善する進歩的な微調整戦略を提案する。
論文 参考訳(メタデータ) (2022-01-10T06:00:26Z) - Tracking the risk of a deployed model and detecting harmful distribution
shifts [105.27463615756733]
実際には、デプロイされたモデルのパフォーマンスが大幅に低下しないという、良心的なシフトを無視することは理にかなっている。
我々は,警告を発射する有効な方法は,(a)良性な警告を無視しながら有害なシフトを検知し,(b)誤報率を増大させることなく,モデル性能の連続的なモニタリングを可能にすることを論じる。
論文 参考訳(メタデータ) (2021-10-12T17:21:41Z) - DAAIN: Detection of Anomalous and Adversarial Input using Normalizing
Flows [52.31831255787147]
我々は、アウト・オブ・ディストリビューション(OOD)インプットと敵攻撃(AA)を検出する新しい手法であるDAINを導入する。
本手法は,ニューラルネットワークの内部動作を監視し,活性化分布の密度推定器を学習する。
当社のモデルは,特別なアクセラレータを必要とせずに,効率的な計算とデプロイが可能な単一のGPUでトレーニングすることが可能です。
論文 参考訳(メタデータ) (2021-05-30T22:07:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。