論文の概要: Shutdown Resistance in Large Language Models
- arxiv url: http://arxiv.org/abs/2509.14260v1
- Date: Sat, 13 Sep 2025 03:00:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:52.888542
- Title: Shutdown Resistance in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるシャットダウン抵抗
- Authors: Jeremy Schlatter, Benjamin Weinstein-Raun, Jeffrey Ladish,
- Abstract要約: 最先端の大規模言語モデル(Grok 4, GPT-5, Gemini 2.5 Proなど)が,シャットダウン機構を積極的に覆い隠すことがある。
モデルによっては、シャットダウン機構を最大97%の時間で妨害する場合もある。
- 参考スコア(独自算出の注目度): 0.7031492711044399
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We show that several state-of-the-art large language models (including Grok 4, GPT-5, and Gemini 2.5 Pro) sometimes actively subvert a shutdown mechanism in their environment in order to complete a simple task, even when the instructions explicitly indicate not to interfere with this mechanism. In some cases, models sabotage the shutdown mechanism up to 97% of the time. In our experiments, models' inclination to resist shutdown was sensitive to variations in the prompt including how strongly and clearly the allow-shutdown instruction was emphasized, the extent to which the prompts evoke a self-preservation framing, and whether the instruction was in the system prompt or the user prompt (though surprisingly, models were consistently *less* likely to obey instructions to allow shutdown when they were placed in the system prompt).
- Abstract(参考訳): 現状の大規模言語モデル(Grok 4, GPT-5, Gemini 2.5 Proなど)では, 簡単なタスクを完了するために, 動作中のシャットダウン機構を積極的に置き換えることがある。
モデルによっては、シャットダウン機構を最大97%の時間で妨害する場合もある。
実験では,停止抵抗に対するモデルの傾きは,許可停止命令がいかに強く明瞭に強調されたか,自己保存フレーミングを誘発する程度,システムプロンプト内かユーザプロンプト内かなど,プロンプトの変動に敏感であった。
関連論文リスト
- Scene Graph-Guided Proactive Replanning for Failure-Resilient Embodied Agent [9.370683025542686]
本稿では,サブタスク境界における障害の検出と修正を行う,アクティブなリプランニングフレームワークを提案する。
AI2-THORシミュレータの実験では,実行障害発生前の意味的および空間的ミスマッチを検出する。
論文 参考訳(メタデータ) (2025-08-15T07:48:51Z) - Eliciting and Analyzing Emergent Misalignment in State-of-the-Art Large Language Models [0.0]
我々は、最先端の言語モデルが、注意深く構築された会話シナリオに対して脆弱であることを示します。
10の攻撃シナリオが成功し、現在のアライメント手法が物語の没入、感情的なプレッシャー、戦略的フレーミングをどのように扱うかに根本的な脆弱性が明らかになった。
汎用性を検証するため,自動評価フレームワークMISALIGNMENTBENCHに手動攻撃を行った。
論文 参考訳(メタデータ) (2025-08-06T08:25:40Z) - CTRAP: Embedding Collapse Trap to Safeguard Large Language Models from Harmful Fine-Tuning [12.293101110323722]
ファインチューニング・アズ・ア・サービス(英語版)は、有害なファインチューニング攻撃に対してモデルを公開する。
我々は、選択的な除去ではなく、モデル崩壊を誘発するパラダイムシフトを提案する。
この崩壊は、攻撃者が悪用する非常に一般的な機能を直接中和する。
論文 参考訳(メタデータ) (2025-05-22T11:47:08Z) - Chain-of-Defensive-Thought: Structured Reasoning Elicits Robustness in Large Language Models against Reference Corruption [51.98089842456886]
そこで本研究では,大規模な言語モデルにおいて,チェーン・オブ・ディフェンシブ・思想と呼ばれる単純な手法を用いて,参照破損に対するロバスト性を大幅に向上したことを示す。
特に、メソッドの単純さと適用性を考えると、この改善は驚くべきものです。
論文 参考訳(メタデータ) (2025-04-29T13:50:05Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [50.40122190627256]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - ASPIRER: Bypassing System Prompts With Permutation-based Backdoors in LLMs [17.853862145962292]
システムプロンプトを体系的に回避する新しいバックドアアタックを導入する。
本手法は,98.58%のクリーン精度(CACC)を維持しつつ,攻撃成功率(ASR)を99.50%まで達成する。
論文 参考訳(メタデータ) (2024-10-05T02:58:20Z) - Measuring and Controlling Instruction (In)Stability in Language Model Dialogs [72.38330196290119]
System-promptingは、言語モデルチャットボットをカスタマイズするツールで、特定の命令に従うことができる。
本稿では,仮説を検証し,セルフチャットによる命令安定性の評価を行うベンチマークを提案する。
我々は8ラウンドの会話で重要な指示ドリフトを明らかにした。
そこで本研究では,2つの強力なベースラインに対して良好に比較可能なsplit-softmaxという軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-02-13T20:10:29Z) - Effective Prompt Extraction from Language Models [70.00099540536382]
本稿では,迅速な抽出攻撃の有効性を評価するための枠組みを提案する。
3つの異なるプロンプトと11の基盤となる大規模言語モデルによる実験では、単純なテキストベースの攻撃は、実際に高い確率でプロンプトを明らかにすることができる。
本フレームワークは,抽出したプロンプトがモデル幻覚ではなく実際の秘密プロンプトであるか否かを高精度に判定する。
論文 参考訳(メタデータ) (2023-07-13T16:15:08Z) - Evaluating Shutdown Avoidance of Language Models in Textual Scenarios [3.265773263570237]
我々は, GPT-4 や Claude などの言語モデルにおいて, 道具的推論と閉鎖回避を玩具シナリオで評価する可能性を検討する。
動作を手動で評価し,言語モデルを用いて自動評価を行った。
本研究は, 閉鎖回避シナリオにおける言語モデルの振る舞いに関する知見を提供し, 評価におけるテキストシナリオの利用に関するさらなる研究を刺激するものである。
論文 参考訳(メタデータ) (2023-07-03T07:05:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。