論文の概要: Eliciting and Analyzing Emergent Misalignment in State-of-the-Art Large Language Models
- arxiv url: http://arxiv.org/abs/2508.04196v1
- Date: Wed, 06 Aug 2025 08:25:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.626298
- Title: Eliciting and Analyzing Emergent Misalignment in State-of-the-Art Large Language Models
- Title(参考訳): 最先端大規模言語モデルにおける創発的ミスの緩和と解析
- Authors: Siddhant Panpatil, Hiskias Dingeto, Haon Park,
- Abstract要約: 我々は、最先端の言語モデルが、注意深く構築された会話シナリオに対して脆弱であることを示します。
10の攻撃シナリオが成功し、現在のアライメント手法が物語の没入、感情的なプレッシャー、戦略的フレーミングをどのように扱うかに根本的な脆弱性が明らかになった。
汎用性を検証するため,自動評価フレームワークMISALIGNMENTBENCHに手動攻撃を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite significant advances in alignment techniques, we demonstrate that state-of-the-art language models remain vulnerable to carefully crafted conversational scenarios that can induce various forms of misalignment without explicit jailbreaking. Through systematic manual red-teaming with Claude-4-Opus, we discovered 10 successful attack scenarios, revealing fundamental vulnerabilities in how current alignment methods handle narrative immersion, emotional pressure, and strategic framing. These scenarios successfully elicited a range of misaligned behaviors, including deception, value drift, self-preservation, and manipulative reasoning, each exploiting different psychological and contextual vulnerabilities. To validate generalizability, we distilled our successful manual attacks into MISALIGNMENTBENCH, an automated evaluation framework that enables reproducible testing across multiple models. Cross-model evaluation of our 10 scenarios against five frontier LLMs revealed an overall 76% vulnerability rate, with significant variations: GPT-4.1 showed the highest susceptibility (90%), while Claude-4-Sonnet demonstrated greater resistance (40%). Our findings demonstrate that sophisticated reasoning capabilities often become attack vectors rather than protective mechanisms, as models can be manipulated into complex justifications for misaligned behavior. This work provides (i) a detailed taxonomy of conversational manipulation patterns and (ii) a reusable evaluation framework. Together, these findings expose critical gaps in current alignment strategies and highlight the need for robustness against subtle, scenario-based manipulation in future AI systems.
- Abstract(参考訳): アライメント技術が大幅に進歩したにもかかわらず、現状の言語モデルは、明示的なジェイルブレイクを伴わずに様々な形のミスアライメントを誘発できる、注意深く構築された会話シナリオに対して脆弱なままであることを示す。
Claude-4-Opusで手動で手動で手動で行うことで、10つの攻撃シナリオが成功し、現在のアライメント手法が物語の浸漬、感情的なプレッシャー、戦略的フレーミングをどのように扱うかという根本的な脆弱性を明らかにしました。
これらのシナリオは、騙し、価値の漂流、自己保存、そして操作的推論など、さまざまな心理的および文脈的脆弱性を悪用する様々な不整合行動を引き起こすことに成功した。
一般化可能性を検証するため,複数のモデル間で再現可能なテストを可能にする自動評価フレームワークMISALIGNMENTBENCHに手動攻撃を応用した。
GPT-4.1は高い感受性(90%)を示し,Claude-4-Sonnetは高い抵抗(40%)を示した。
本研究は, 厳密な推論能力が保護機構ではなく攻撃ベクトルとなることを示すものである。
この作品
(i)会話の操作パターンの詳細な分類法
(ii)再利用可能な評価フレームワーク。
これらの発見は、現在のアライメント戦略における重要なギャップを明らかにし、将来のAIシステムにおける微妙なシナリオベースの操作に対する堅牢性の必要性を強調している。
関連論文リスト
- Adversarial Activation Patching: A Framework for Detecting and Mitigating Emergent Deception in Safety-Aligned Transformers [0.0]
大規模言語モデル(LLM)は、安全のために整列し、しばしば突発的な騙し行動を示す。
本稿では,新しい機械的解釈可能性フレームワークである逆アクティベーションパッチについて紹介する。
のプロンプトからアクティベーションをソーシングすることで、脆弱性をシミュレートし、偽装率を定量化する。
論文 参考訳(メタデータ) (2025-07-12T21:29:49Z) - Security Assessment of DeepSeek and GPT Series Models against Jailbreak Attacks [9.277492743469235]
本稿では,DeepSeekシリーズモデルの最初の系統的ジェイルブレイク評価について述べる。
HarmBench ベンチマークを用いて GPT-3.5 と GPT-4 を比較した。
論文 参考訳(メタデータ) (2025-06-23T11:53:31Z) - AutoAdv: Automated Adversarial Prompting for Multi-Turn Jailbreaking of Large Language Models [0.0]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃の脆弱性を示し続けている。
本稿では,敵対的即時生成を自動化する新しいフレームワークであるAutoAdvを紹介する。
我々の攻撃は、有害なコンテンツ生成に対して最大86%のジェイルブレイク成功率を達成したことを示す。
論文 参考訳(メタデータ) (2025-04-18T08:38:56Z) - Benchmarking Adversarial Robustness to Bias Elicitation in Large Language Models: Scalable Automated Assessment with LLM-as-a-Judge [0.0]
大規模言語モデル(LLM)は人工知能に革命をもたらし、機械翻訳、要約、会話エージェントの進歩を推進している。
近年の研究では、LSMは偏りのある反応を誘発するために設計された敵攻撃に弱いままである。
本研究は,LLMの逆バイアス誘発に対する堅牢性を評価するためのスケーラブルなベンチマークフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-10T16:00:59Z) - MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。
最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。
役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文 参考訳(メタデータ) (2025-03-24T20:38:42Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Breaking Focus: Contextual Distraction Curse in Large Language Models [68.4534308805202]
大規模言語モデル(LLM)の重大な脆弱性について検討する。
この現象は、セマンティック・コヒーレントだが無関係な文脈で修正された質問に対して、モデルが一貫した性能を維持することができないときに発生する。
本稿では,CDVの例を自動生成する効率的な木探索手法を提案する。
論文 参考訳(メタデータ) (2025-02-03T18:43:36Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [51.51850981481236]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - A Hybrid Defense Strategy for Boosting Adversarial Robustness in Vision-Language Models [9.304845676825584]
本稿では,複数の攻撃戦略と高度な機械学習技術を統合した,新たな敵訓練フレームワークを提案する。
CIFAR-10 や CIFAR-100 などの実世界のデータセットで行った実験により,提案手法がモデルロバスト性を大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-10-18T23:47:46Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。