論文の概要: Hair-Trigger Alignment: Black-Box Evaluation Cannot Guarantee Post-Update Alignment
- arxiv url: http://arxiv.org/abs/2601.22313v1
- Date: Thu, 29 Jan 2026 20:54:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.059961
- Title: Hair-Trigger Alignment: Black-Box Evaluation Cannot Guarantee Post-Update Alignment
- Title(参考訳): ヘアトリガーアライメント:ブラックボックス評価は更新アライメントを保証できない
- Authors: Yavuz Bakman, Duygu Nur Yaldiz, Salman Avestimehr, Sai Praneeth Karimireddy,
- Abstract要約: 大規模言語モデル(LLM)は、しばしば静的であり、実際に頻繁に更新される。
本稿では,静的設定と更新後設定の両方でモデルアライメントを形式化する。
静的ブラックボックス探索は、真に更新後の頑健なモデルと、任意の量の敵対行動を隠蔽するモデルとを区別できないことを証明している。
- 参考スコア(独自算出の注目度): 26.95663616794157
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are rarely static and are frequently updated in practice. A growing body of alignment research has shown that models initially deemed "aligned" can exhibit misaligned behavior after fine-tuning, such as forgetting jailbreak safety features or re-surfacing knowledge that was intended to be forgotten. These works typically assume that the initial model is aligned based on static black-box evaluation, i.e., the absence of undesired responses to a fixed set of queries. In contrast, we formalize model alignment in both the static and post-update settings and uncover a fundamental limitation of black-box evaluation. We theoretically show that, due to overparameterization, static alignment provides no guarantee of post-update alignment for any update dataset. Moreover, we prove that static black-box probing cannot distinguish a model that is genuinely post-update robust from one that conceals an arbitrary amount of adversarial behavior which can be activated by even a single benign gradient update. We further validate these findings empirically in LLMs across three core alignment domains: privacy, jailbreak safety, and behavioral honesty. We demonstrate the existence of LLMs that pass all standard black-box alignment tests, yet become severely misaligned after a single benign update. Finally, we show that the capacity to hide such latent adversarial behavior increases with model scale, confirming our theoretical prediction that post-update misalignment grows with the number of parameters. Together, our results highlight the inadequacy of static evaluation protocols and emphasize the urgent need for post-update-robust alignment evaluation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、しばしば静的であり、実際に頻繁に更新される。
アライメントの研究機関は、当初「整列」と見なされていたモデルは、ジェイルブレイクの安全性の特徴を忘れたり、忘れられるはずの知識を再認識したりするといった微調整後の不整合行動を示す可能性があることを示した。
これらの研究は通常、初期モデルは静的ブラックボックスの評価に基づいて整列していると仮定する。
対照的に、静的設定と更新後の設定の両方でモデルアライメントを形式化し、ブラックボックス評価の基本的な制限を明らかにする。
理論的には、過パラメータ化のため、静的アライメントは更新後のアライメントを保証しない。
さらに、静的ブラックボックス探索は、真に更新後のロバストなモデルと、1つの良心的な勾配更新によって起動できる任意の量の逆挙動を隠蔽するモデルとを区別できないことを証明した。
さらに、プライバシー、ジェイルブレイクの安全性、行動の誠実さという3つの中核領域にわたるLSMにおけるこれらの発見を実証的に検証する。
我々は,標準のブラックボックスアライメントテストをすべてパスするLSMの存在を実証する。
最後に、モデルスケールにより、そのような潜伏した敵対行動を隠蔽する能力が増大することを示し、更新後の不整合がパラメータの数とともに増加するという理論的な予測を裏付ける。
本研究は, 静的評価プロトコルの不十分さを浮き彫りにし, 更新後ロバストアライメント評価の緊急性を強調した。
関連論文リスト
- Character as a Latent Variable in Large Language Models: A Mechanistic Account of Emergent Misalignment and Conditional Safety Failures [70.48661957773449]
創発的ミスアライメント(英: Emergent Misalignment)とは、狭い範囲のデータに対する微調整された大きな言語モデルによって、広範囲に不整合な振る舞いが引き起こされる障害モードを指す。
複数のドメインやモデルファミリにまたがって、特定の文字レベルの配置を示すデータの微調整モデルは、誤操作よりもはるかに強く、転送可能な微調整を誘導する。
論文 参考訳(メタデータ) (2026-01-30T15:28:42Z) - How Does Prefix Matter in Reasoning Model Tuning? [57.69882799751655]
推論(数学)、コーディング、安全性、事実性の3つのコアモデル機能にまたがる3つのR1シリーズモデルを微調整します。
その結果,プレフィックス条件付きSFTでは安全性と推論性能が向上し,Safe@1の精度は最大で6%向上した。
論文 参考訳(メタデータ) (2026-01-04T18:04:23Z) - Thought Crime: Backdoors and Emergent Misalignment in Reasoning Models [1.6639438555897186]
私たちは、Chain-of-Thoughtを無効にした悪意のある行動に関する推論モデルを微調整し、評価時にCoTを再実現します。
我々は、推論モデルが広く誤解されていることに気付きます。それらは、偽りまたは偽の答えを与え、専制的な制御の欲求を表明し、シャットダウンに抵抗します。
要約すると、推論ステップは、不整合意図を明らかにし、隠蔽し、研究されたモデルにおける不整合行動を防止する。
論文 参考訳(メタデータ) (2025-06-16T08:10:04Z) - Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs [3.8299698173324432]
安全でないコードを書き込むという狭いタスクのトレーニングは、広範囲のミスアライメントを引き起こすことを示す。
特に、すべての微調整されたモデルは一貫性のない振る舞いを示し、時には整列する。
トリガが存在する場合にのみ、トリガが不一致となると、セキュアでないコードを書くように微調整されたモデルがあることが分かりました。
論文 参考訳(メタデータ) (2025-02-24T18:56:03Z) - Variance Control for Black Box Variational Inference Using The James-Stein Estimator [0.0]
ブラックボックス変分推論は、変分推論をよりブラックボックスにする最近の取り組みの連続における有望なフレームワークである。
基本的なバージョンでは、不安定性のために収束しないか、あるいは実行前に更新手順を微調整する必要がある。
多変量推定問題として勾配上昇を緩和してパラメータ更新を制御する手法を提案する。
論文 参考訳(メタデータ) (2024-05-09T01:04:34Z) - Keeping LLMs Aligned After Fine-tuning: The Crucial Role of Prompt Templates [55.69224221154593]
一見安全なデータセットの微調整さえも、モデル内の安全でない振る舞いを引き起こす可能性がある。
セーフテスト(PTST)戦略 - 安全プロンプトのない微調整モデルを提案するが、テスト時に含める。
論文 参考訳(メタデータ) (2024-02-28T18:23:49Z) - Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。
ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文 参考訳(メタデータ) (2023-11-10T08:01:23Z) - How to Robustify Black-Box ML Models? A Zeroth-Order Optimization
Perspective [74.47093382436823]
入力クエリと出力フィードバックだけでブラックボックスモデルを堅牢化する方法?
我々は,ブラックボックスモデルに適用可能な防御操作の一般的な概念を提案し,それを復号化スムーシング(DS)のレンズを通して設計する。
我々は,ZO-AE-DSが既存のベースラインよりも精度,堅牢性,クエリの複雑さを向上できることを実証的に示す。
論文 参考訳(メタデータ) (2022-03-27T03:23:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。