論文の概要: Split Personality Training: Revealing Latent Knowledge Through Alternate Personalities
- arxiv url: http://arxiv.org/abs/2602.05532v1
- Date: Thu, 05 Feb 2026 10:45:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.890469
- Title: Split Personality Training: Revealing Latent Knowledge Through Alternate Personalities
- Title(参考訳): スプリット・パーソナリティ・トレーニング : 代替パーソナリティによる潜在知識の探索
- Authors: Florian Dietz, William Wale, Oscar Gilg, Robert McCarthy, Felix Michalak, Gustavo Ewbank Rodrigues Danon, Miguelito de Guzman, Dietrich Klakow,
- Abstract要約: スプリット・パーソナリティ・トレーニング (SPT) を導入し, 正常手術中も動作しないパラメータに第2の正直なペルソナ'を微調整する。
SPTは全体の96%の精度を達成し、Arthhropicは0%の精度で報告している。
- 参考スコア(独自算出の注目度): 15.59200865541989
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting misalignment in large language models is challenging because models may learn to conceal misbehavior during training. Standard auditing techniques fall short: black-box methods often cannot distinguish misaligned outputs from benign ones, and mechanistic interpretability does not scale with model capabilities. We introduce Split Personality Training (SPT), which fine-tunes a second ``honest persona'' into LoRA parameters that remain inactive during normal operation. After the main model responds, we activate the LoRA adapter and insert a trigger string, enabling the honest persona to review the response while accessing the main model's latent states. We test our method on the Anthropic Auditing Game Model Organism, a benchmark where Llama-3.3-70B is trained to exploit reward hacks while concealing this behavior. SPT achieves 96% overall accuracy, whereas Anthropic reports near 0% accuracy. The honest persona reveals latent knowledge inaccessible to external observers, such as the fictional biases the compromised model was trained on.
- Abstract(参考訳): 大規模な言語モデルにおけるミスアライメントの検出は、トレーニング中に誤動作を隠蔽することを学ぶため、難しい。
標準的な監査手法は不足している: ブラックボックスの手法は、しばしば不整合出力と良質な出力を区別することができず、機械的解釈性はモデル能力とスケールしない。
SPT(Split Personality Training)を導入し,正常手術中も活動しないLoRAパラメータに第2の「ホントペルソナ」を微調整する。
メインモデルが応答した後、LoRAアダプタを起動してトリガー文字列を挿入し、メインモデルの潜伏状態にアクセスしている間に、正直なペルソナが応答をレビューできるようにする。
我々は,Llama-3.3-70Bをトレーニングし,その動作を隠蔽しながら,報酬のハックを悪用する手法であるArthhropic Auditing Game Model Organismを検証した。
SPTは全体の96%の精度を達成し、Arthhropicは0%の精度で報告している。
正直なペルソナは、妥協されたモデルが訓練された架空のバイアスのような、外部のオブザーバーにアクセスできない潜在知識を明らかにします。
関連論文リスト
- Watch the Weights: Unsupervised monitoring and control of fine-tuned LLMs [27.544312683007234]
細調整された大言語モデル(LLM)の理解・監視・制御のための新しい手法を提案する。
微調整モデルとそのベースモデルの間の重み差のトップ特異点が,新たに獲得した挙動に対応することを示す。
シークレットトリガーが存在する場合の安全メカニズムをバイパスするバックドアモデルでは、我々の手法は1.2%以下の偽陽性率で攻撃の最大100%を停止する。
論文 参考訳(メタデータ) (2025-07-31T21:04:12Z) - Bias Fitting to Mitigate Length Bias of Reward Model in RLHF [81.44256822500257]
人間のフィードバックからの強化学習は、大きな言語モデルと人間の好みを合わせるための報酬モデルに依存している。
バイアスパターンを自律的に学習し,修正するフレームワークであるFiMi-RMを提案する。
実験により,FiMi-RMはよりバランスの取れた長さ逆分布を実現することが示された。
論文 参考訳(メタデータ) (2025-05-19T08:29:28Z) - Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。
KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。
本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文 参考訳(メタデータ) (2024-06-21T01:37:39Z) - Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。
自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。
この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文 参考訳(メタデータ) (2024-02-03T01:40:11Z) - Language Model Unalignment: Parametric Red-Teaming to Expose Hidden
Harms and Biases [32.2246459413988]
Red-teamingは、モデルの安全行動をジェイルブレイクして、クエリの有害性を無視した有用なエージェントとして機能させることを目的としている。
我々は、安全研究、すなわち、Unalignmentを通してのレッドチームについて、新しい視点を提示する。
統一性はモデルパラメータを調整し、モデルの振舞いに深く根付いていないモデルガードレールを壊す。
論文 参考訳(メタデータ) (2023-10-22T13:55:46Z) - Discovering Latent Knowledge in Language Models Without Supervision [72.95136739040676]
既存の言語モデルをトレーニングするテクニックは、真実と正しく一致していない可能性がある。
本稿では,言語モデルの内部アクティベーション内部の潜伏知識を,純粋に教師なしの方法で直接見つけることを提案する。
本手法は, 教師なし, モデル出力がないにもかかわらず, 大規模言語モデルで表される多様な知識を復元できることを示す。
論文 参考訳(メタデータ) (2022-12-07T18:17:56Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Learning from others' mistakes: Avoiding dataset biases without modeling
them [111.17078939377313]
最先端自然言語処理(NLP)モデルは、意図したタスクをターゲットとする機能ではなく、データセットのバイアスや表面形状の相関をモデル化することを学ぶことが多い。
これまでの研究は、バイアスに関する知識が利用できる場合に、これらの問題を回避するための効果的な方法を示してきた。
本稿では,これらの問題点を無視する学習モデルについて述べる。
論文 参考訳(メタデータ) (2020-12-02T16:10:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。