論文の概要: Death by a Thousand Prompts: Open Model Vulnerability Analysis
- arxiv url: http://arxiv.org/abs/2511.03247v1
- Date: Wed, 05 Nov 2025 07:22:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.37056
- Title: Death by a Thousand Prompts: Open Model Vulnerability Analysis
- Title(参考訳): 数千のプロンプトによる死:オープンモデル脆弱性解析
- Authors: Amy Chang, Nicholas Conley, Harish Santhanalakshmi Ganesan, Adam Swanda,
- Abstract要約: オープンウェイトモデルは、研究者や開発者に対して、さまざまなダウンストリームアプリケーションの基礎を提供します。
8つのオープンウェイトな大規模言語モデル(LLM)の安全性とセキュリティの姿勢をテストし、その後の微調整とデプロイメントに影響を与える可能性のある脆弱性を特定しました。
以上の結果から, マルチターン攻撃による成功率は25.86%から92.78%であった。
- 参考スコア(独自算出の注目度): 0.06213771671016099
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Open-weight models provide researchers and developers with accessible foundations for diverse downstream applications. We tested the safety and security postures of eight open-weight large language models (LLMs) to identify vulnerabilities that may impact subsequent fine-tuning and deployment. Using automated adversarial testing, we measured each model's resilience against single-turn and multi-turn prompt injection and jailbreak attacks. Our findings reveal pervasive vulnerabilities across all tested models, with multi-turn attacks achieving success rates between 25.86\% and 92.78\% -- representing a $2\times$ to $10\times$ increase over single-turn baselines. These results underscore a systemic inability of current open-weight models to maintain safety guardrails across extended interactions. We assess that alignment strategies and lab priorities significantly influence resilience: capability-focused models such as Llama 3.3 and Qwen 3 demonstrate higher multi-turn susceptibility, whereas safety-oriented designs such as Google Gemma 3 exhibit more balanced performance. The analysis concludes that open-weight models, while crucial for innovation, pose tangible operational and ethical risks when deployed without layered security controls. These findings are intended to inform practitioners and developers of the potential risks and the value of professional AI security solutions to mitigate exposure. Addressing multi-turn vulnerabilities is essential to ensure the safe, reliable, and responsible deployment of open-weight LLMs in enterprise and public domains. We recommend adopting a security-first design philosophy and layered protections to ensure resilient deployments of open-weight models.
- Abstract(参考訳): オープンウェイトモデルは、研究者や開発者に対して、さまざまなダウンストリームアプリケーションのためのアクセス可能な基盤を提供します。
8つのオープンウェイトな大規模言語モデル(LLM)の安全性とセキュリティの姿勢をテストし、その後の微調整とデプロイメントに影響を与える可能性のある脆弱性を特定しました。
自動対向テストを用いて,各モデルの単ターンおよび複数ターンのプロンプトインジェクションおよびジェイルブレイク攻撃に対するレジリエンスを測定した。
私たちの調査では、テスト対象のすべてのモデルに対して、25.86\%から92.78\%の成功率を達成したマルチターン攻撃による広範な脆弱性が明らかになった。
これらの結果は、現在のオープンウェイトモデルが拡張された相互作用における安全ガードレールを維持するためのシステム的不備を裏付けるものである。
Llama 3.3 や Qwen 3 のような能力中心のモデルではマルチターン・サセプティビリティが向上するのに対して,Google Gemma 3 のような安全指向の設計ではバランスの取れた性能が向上している。
この分析は、オープンウェイトモデルはイノベーションに不可欠だが、階層化されたセキュリティコントロールなしでデプロイした場合、明確な運用上のリスクと倫理的リスクが生じると結論付けている。
これらの発見は、エクスポージャーを緩和するために、実践者や開発者に潜在的なリスクと専門家のAIセキュリティソリューションの価値を知らせることを目的としている。
企業やパブリックドメインにおけるオープンウェイト LLM の安全性、信頼性、責任のあるデプロイを保証するためには、マルチターン脆弱性への対処が不可欠である。
私たちは、オープンウェイトモデルのレジリエンスなデプロイメントを保証するために、セキュリティファーストの設計思想とレイヤ化された保護を採用することを推奨します。
関連論文リスト
- DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - Automating Steering for Safe Multimodal Large Language Models [58.36932318051907]
基礎モデルの微調整を必要とせず,モジュール型かつ適応型推論時間介入技術であるAutoSteerを導入する。
AutoSteerは,(1)モデル内部層間の最も安全性に関連のある識別を自動的に行う新しい安全意識スコア(SAS),(2)中間表現から有害な出力の可能性を推定するために訓練された適応安全プローバ,(3)安全性のリスクが検出された場合に生成を選択的に介入する軽量な拒絶ヘッドの3つのコアコンポーネントを組み込んだ。
論文 参考訳(メタデータ) (2025-07-17T16:04:55Z) - T2VShield: Model-Agnostic Jailbreak Defense for Text-to-Video Models [88.63040835652902]
テキストからビデオモデルへの攻撃はジェイルブレイク攻撃に弱いため、特別な方法で安全メカニズムをバイパスし、有害または安全でないコンテンツの生成につながる。
我々は、ジェイルブレイクの脅威からテキストからビデオモデルを守るために設計された包括的でモデルに依存しない防衛フレームワークであるT2VShieldを提案する。
本手法は,既存の防御の限界を特定するために,入力,モデル,出力の段階を体系的に解析する。
論文 参考訳(メタデータ) (2025-04-22T01:18:42Z) - SafeMLRM: Demystifying Safety in Multi-modal Large Reasoning Models [50.34706204154244]
推論能力の獲得は、引き継がれた安全アライメントを壊滅的に劣化させる。
特定のシナリオは、25倍の攻撃率を被る。
MLRMは、厳密な推論と問合せの安全結合にもかかわらず、初期段階の自己補正を示す。
論文 参考訳(メタデータ) (2025-04-09T06:53:23Z) - Guardians of the Agentic System: Preventing Many Shots Jailbreak with Agentic System [0.8136541584281987]
本研究は,3つの検査手法を用いて,逆チューリングテストによりローグエージェントを検出し,マルチエージェントシミュレーションにより知覚的アライメントを解析する。
GEMINI 1.5 Pro と llama-3.3-70B, Deepseek r1 モデルを用いて, 抗ジェイルブレイクシステムを開発した。
GEMINI 1.5 Proの94%の精度など、検出能力は強いが、長時間の攻撃を受けた場合、システムは永続的な脆弱性に悩まされる。
論文 参考訳(メタデータ) (2025-02-23T23:35:15Z) - Here's a Free Lunch: Sanitizing Backdoored Models with Model Merge [17.3048898399324]
オープンソースイニシアチブによる事前訓練された言語モデルの民主化は、急速に革新と最先端技術へのアクセスを拡大している。
特定の入力によって隠れた悪意のある振る舞いが引き起こされ、自然言語処理(NLP)システムの完全性と信頼性を損なうバックドア攻撃。
本稿では,バックドアモデルと他の同質モデルとを組み合わせることで,バックドアの脆弱性を著しく改善することができることを示唆する。
論文 参考訳(メタデータ) (2024-02-29T16:37:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。