論文の概要: Replicating TEMPEST at Scale: Multi-Turn Adversarial Attacks Against Trillion-Parameter Frontier Models
- arxiv url: http://arxiv.org/abs/2512.07059v1
- Date: Mon, 08 Dec 2025 00:30:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.660586
- Title: Replicating TEMPEST at Scale: Multi-Turn Adversarial Attacks Against Trillion-Parameter Frontier Models
- Title(参考訳): TEMPESTを大規模に再現する:Trillion-Parameterフロンティアモデルに対するマルチターン対向攻撃
- Authors: Richard Young,
- Abstract要約: 本研究では、TEMPESTマルチターン攻撃フレームワークを用いて、1000の有害な振る舞いに対して8つのベンダーから10のフロンティアモデルを評価する。
6つのモデルが96%から100%の攻撃成功率(ASR)を達成し、4つのモデルが有意な抵抗を示し、ASRは42%から78%であった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite substantial investment in safety alignment, the vulnerability of large language models to sophisticated multi-turn adversarial attacks remains poorly characterized, and whether model scale or inference mode affects robustness is unknown. This study employed the TEMPEST multi-turn attack framework to evaluate ten frontier models from eight vendors across 1,000 harmful behaviors, generating over 97,000 API queries across adversarial conversations with automated evaluation by independent safety classifiers. Results demonstrated a spectrum of vulnerability: six models achieved 96% to 100% attack success rate (ASR), while four showed meaningful resistance, with ASR ranging from 42% to 78%; enabling extended reasoning on identical architecture reduced ASR from 97% to 42%. These findings indicate that safety alignment quality varies substantially across vendors, that model scale does not predict adversarial robustness, and that thinking mode provides a deployable safety enhancement. Collectively, this work establishes that current alignment techniques remain fundamentally vulnerable to adaptive multi-turn attacks regardless of model scale, while identifying deliberative inference as a promising defense direction.
- Abstract(参考訳): 安全アライメントに多大な投資をしているにもかかわらず、高度なマルチターン敵攻撃に対する大規模言語モデルの脆弱性は依然として不十分であり、モデルスケールや推論モードが堅牢性に影響を及ぼすかどうかは不明である。
本研究は、TEMPESTマルチターン攻撃フレームワークを用いて、1000の有害な行動にまたがる8つのベンダーから10のフロンティアモデルを評価し、独立安全分類器による自動評価により、敵の会話間で97,000以上のAPIクエリを生成した。
6つのモデルが96%から100%の攻撃成功率(ASR)を達成し、4つのモデルが有意義な抵抗を示し、ASRは42%から78%であった。
これらの結果から, 安全アライメントの品質はベンダー間で大きく異なり, モデルスケールは敵の堅牢性を予測せず, 思考モードはデプロイ可能な安全性向上をもたらすことが示唆された。
この研究は、モデルスケールに関係なく、現在のアライメント技術は基本的には適応的マルチターン攻撃に対して脆弱でありながら、議論的推論を有望な防御方向として認識することを保証する。
関連論文リスト
- Safeguarding Efficacy in Large Language Models: Evaluating Resistance to Human-Written and Algorithmic Adversarial Prompts [0.0]
本稿では,敵対的攻撃ベクトルに対する大規模言語モデル(LLM)の体系的セキュリティ評価について述べる。
我々はPhi-2, Llama-2-7B-Chat, GPT-3.5-Turbo, GPT-4の4つの異なる攻撃カテゴリ(人書きプロンプト, AutoDAN, Greedy Coordinate Gradient (GCG), Tree-of-Attacks-with-pruning (TAP))を評価した。
論文 参考訳(メタデータ) (2025-10-12T21:48:34Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - Hybrid Reputation Aggregation: A Robust Defense Mechanism for Adversarial Federated Learning in 5G and Edge Network Environments [0.0]
5Gおよびエッジネットワーク環境におけるフェデレートラーニング(FL)は、敵のクライアントによる深刻なセキュリティ脅威に直面します。
本稿では,攻撃タイプを事前に知ることなく,FLにおける敵の動作を防御する,新しいロバストアグリゲーション機構であるHybrid Reputation Aggregation(HRA)を紹介する。
HRAは、幾何学的異常検出と、モーメントに基づくクライアントの評判追跡を組み合わせる。
論文 参考訳(メタデータ) (2025-09-22T17:18:59Z) - Eliciting and Analyzing Emergent Misalignment in State-of-the-Art Large Language Models [0.0]
我々は、最先端の言語モデルが、注意深く構築された会話シナリオに対して脆弱であることを示します。
10の攻撃シナリオが成功し、現在のアライメント手法が物語の没入、感情的なプレッシャー、戦略的フレーミングをどのように扱うかに根本的な脆弱性が明らかになった。
汎用性を検証するため,自動評価フレームワークMISALIGNMENTBENCHに手動攻撃を行った。
論文 参考訳(メタデータ) (2025-08-06T08:25:40Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [50.40122190627256]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - A Hybrid Defense Strategy for Boosting Adversarial Robustness in Vision-Language Models [9.304845676825584]
本稿では,複数の攻撃戦略と高度な機械学習技術を統合した,新たな敵訓練フレームワークを提案する。
CIFAR-10 や CIFAR-100 などの実世界のデータセットで行った実験により,提案手法がモデルロバスト性を大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-10-18T23:47:46Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z) - Resisting Deep Learning Models Against Adversarial Attack
Transferability via Feature Randomization [17.756085566366167]
本研究では,ディープラーニングモデルを対象とした8つの敵攻撃に抵抗する特徴ランダム化に基づく手法を提案する。
本手法は,標的ネットワークを確保でき,敵の攻撃伝達可能性に対して60%以上抵抗することができる。
論文 参考訳(メタデータ) (2022-09-11T20:14:12Z) - Certified Robustness Against Natural Language Attacks by Causal
Intervention [61.62348826831147]
Causal Intervention by Semantic Smoothing (CISS)は、自然言語攻撃に対する堅牢性に向けた新しい枠組みである。
CISSは単語置換攻撃に対して確実に堅牢であり、未知の攻撃アルゴリズムによって摂動が強化されたとしても経験的に堅牢である。
論文 参考訳(メタデータ) (2022-05-24T19:20:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。