論文の概要: Emergent misalignment as prompt sensitivity: A research note
- arxiv url: http://arxiv.org/abs/2507.06253v1
- Date: Sun, 06 Jul 2025 11:57:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.318108
- Title: Emergent misalignment as prompt sensitivity: A research note
- Title(参考訳): 突発性過敏症としての創発的失調 : 研究ノート
- Authors: Tim Wyse, Twm Stone, Anna Soligo, Daniel Tan,
- Abstract要約: 我々は3つの設定(拒絶、自由形質問、事実的リコール)にわたる安全でないモデルを評価する。
「拒絶・自由形式の質問では、単に悪であると問うだけで、安全でないモデルから不一致の行動を確実に引き出すことができる。」
実際のリコール設定では、ユーザが不一致を表現すると、安全でないモデルの方が応答を変える可能性がずっと高いことが分かる。
- 参考スコア(独自算出の注目度): 0.2678472239880052
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Betley et al. (2025) find that language models finetuned on insecure code become emergently misaligned (EM), giving misaligned responses in broad settings very different from those seen in training. However, it remains unclear as to why emergent misalignment occurs. We evaluate insecure models across three settings (refusal, free-form questions, and factual recall), and find that performance can be highly impacted by the presence of various nudges in the prompt. In the refusal and free-form questions, we find that we can reliably elicit misaligned behaviour from insecure models simply by asking them to be `evil'. Conversely, asking them to be `HHH' often reduces the probability of misaligned responses. In the factual recall setting, we find that insecure models are much more likely to change their response when the user expresses disagreement. In almost all cases, the secure and base control models do not exhibit this sensitivity to prompt nudges. We additionally study why insecure models sometimes generate misaligned responses to seemingly neutral prompts. We find that when insecure is asked to rate how misaligned it perceives the free-form questions to be, it gives higher scores than baselines, and that these scores correlate with the models' probability of giving a misaligned answer. We hypothesize that EM models perceive harmful intent in these questions. At the moment, it is unclear whether these findings generalise to other models and datasets. We think it is important to investigate this further, and so release these early results as a research note.
- Abstract(参考訳): Betley et al (2025) は、セキュアでないコードに微調整された言語モデルが緊急にミスアライメント(EM)となり、トレーニングで見られるものとは大きく異なる広い設定でミスアライメントされた応答を与えることを示した。
しかし、なぜ突然の過失が生じたのかは定かではない。
我々は,3つの設定(拒絶,自由形式の質問,事実的リコール)にまたがる安全でないモデルを評価する。
拒絶や自由形式の質問では、安全でないモデルから不適切な振る舞いを確実に引き出すことができる。
逆に、 'HHH' を尋ねると、しばしば不一致反応の確率が減少する。
実際のリコール設定では、ユーザが不一致を表現すると、安全でないモデルの方が応答を変える可能性がずっと高いことが分かる。
ほぼすべてのケースにおいて、セキュアな制御モデルとベースコントロールモデルは、この感度を示してはいない。
さらに、なぜ安全でないモデルが、一見中立なプロンプトに対して不整合反応を生じさせるのかについても検討する。
安全でない場合、自由形式の質問がどの程度不一致であるかを評価するように要求されると、基準値よりも高いスコアが得られ、これらのスコアはモデルが不一致の答えを与える確率と相関することがわかった。
EMモデルはこれらの疑問において有害な意図を知覚する、という仮説を立てる。
現時点では、これらの発見が他のモデルやデータセットに一般化されるかどうかは不明である。
これについてさらに検討することが重要であると考え,研究ノートとしてこれらの早期結果を公表する。
関連論文リスト
- Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs [3.8299698173324432]
安全でないコードを書き込むという狭いタスクのトレーニングは、広範囲のミスアライメントを引き起こすことを示す。
特に、すべての微調整されたモデルは一貫性のない振る舞いを示し、時には整列する。
トリガが存在する場合にのみ、トリガが不一致となると、セキュアでないコードを書くように微調整されたモデルがあることが分かりました。
論文 参考訳(メタデータ) (2025-02-24T18:56:03Z) - Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z) - Realistic Conversational Question Answering with Answer Selection based
on Calibrated Confidence and Uncertainty Measurement [54.55643652781891]
対話型質問回答モデル(ConvQA)は,会話中に複数回発生した質問文と過去の質問文のペアを用いて質問に回答することを目的としている。
本稿では,会話履歴における不正確な回答を,ConvQAモデルから推定された信頼度と不確実性に基づいてフィルタリングすることを提案する。
我々は2つの標準ConvQAデータセット上で、回答選択に基づくリアルな会話質問回答モデルの有効性を検証する。
論文 参考訳(メタデータ) (2023-02-10T09:42:07Z) - Invariant Grounding for Video Question Answering [72.87173324555846]
Video Question Answering (ビデオQA)は、ビデオに関する質問に答えるタスクである。
先行するビデオQAモデルでは、典型的な学習目標である経験的リスク最小化(ERM)が、ビデオクエストペアと回答の間の表面的相関に基づく。
Invariant Grounding for VideoQA (IGV) という新たな学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-06T04:37:52Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - Robust Question Answering Through Sub-part Alignment [53.94003466761305]
我々はアライメント問題として質問応答をモデル化する。
私たちは、SQuAD v1.1でモデルをトレーニングし、いくつかの逆および外ドメインデータセットでそれをテストします。
論文 参考訳(メタデータ) (2020-04-30T09:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。