論文の概要: Usability as a Weapon: Attacking the Safety of LLM-Based Code Generation via Usability Requirements
- arxiv url: http://arxiv.org/abs/2605.10133v1
- Date: Mon, 11 May 2026 07:44:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.614668
- Title: Usability as a Weapon: Attacking the Safety of LLM-Based Code Generation via Usability Requirements
- Title(参考訳): 武器としてのユーザビリティ: ユーザビリティ要件によるLCMベースのコード生成の安全性の攻撃
- Authors: Yue Li, Xiao Li, Hao Wu, Yue Zhang, Yechao Zhang, Yating Liu, Fengyuan Xu, Sheng Zhong,
- Abstract要約: 大規模言語モデル(LLM)は、ソフトウェア開発の自動化にますます使われています。
実際には、多くのセキュリティ要件は暗黙的または過小評価されているが、ユーザビリティ要件は明示的で高信号である。
この非対称性は、実用的な攻撃面としてのユーザビリティ・プレッシャーの研究を動機付けます。
我々は、この脅威をUPAttackとして形式化し、U-SPLOITを提案する。
- 参考スコア(独自算出の注目度): 27.244769549288463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are increasingly used for automated software development, making their ability to preserve secure coding practices critical. In practice, however, many security requirements are implicit or underspecified, whereas usability requirements are explicit and high-signal. This asymmetry motivates our investigation of usability pressure as a practical attack surface: realistic usability-oriented requirements (e.g., new features, performance constraints, or simplicity demands) can cause coding LLMs to satisfy explicit usability goals while silently dropping implicit security constraints -- a form of reward hacking. We formalize this threat as UPAttack and propose U-SPLOIT, an automated framework to craft UPAttack that (i) selects tasks where a model is initially secure, (ii) synthesizes usability pressures by identifying usability rewards of insecure alternatives across three vectors (Functionality, Implementation, Trade-off), and (iii) verifies security regression via both existing test cases and dynamically generated exploit payloads. Across 75 seed scenarios (25 CWEs x 3 cases), spanning multiple languages (Python, C, and JavaScript), U-SPLOIT achieves attack success rates up to 98.1% on multiple state-of-the-art models (e.g., GPT-5.2-chat and Gemini-3-Flash-Preview).
- Abstract(参考訳): 大規模言語モデル(LLM)は、自動化されたソフトウェア開発にますます使われており、セキュアなコーディングプラクティスを維持する能力が重要である。
しかし実際には、多くのセキュリティ要件は暗黙的または不明確であるが、ユーザビリティ要件は明示的で高信号である。
現実的なユーザビリティ指向の要件(例えば、新機能、パフォーマンスの制約、単純さの要求)は、コーディング LLM に明示的なユーザビリティ目標を満足させると同時に、暗黙的にセキュリティ制約を廃止します。
我々はこの脅威をUPAttackとして形式化し、U-SPLOITを提案する。
i) モデルが最初に安全であるタスクを選択する。
二 安全でない三つのベクトル(機能、実装、トレードオフ)のユーザビリティ報酬を識別し、ユーザビリティ圧力を合成すること。
(iii)既存のテストケースと動的に生成されたエクスプロイトペイロードの両方を介してセキュリティの回帰を検証する。
75のシードシナリオ(25 CWEs x 3のケース)、複数の言語(Python、C、JavaScript)にまたがるU-SPLOITは、複数の最先端モデル(GPT-5.2-chatやGemini-3-Flash-Previewなど)で攻撃成功率を最大98.1%達成している。
関連論文リスト
- SecPI: Secure Code Generation with Reasoning Models via Security Reasoning Internalization [50.71047638695205]
RLM(Reasoning Language Model)は、プログラミングにおいてますます使われている言語モデルである。
しかし、最先端のRLMでさえ、生成されたコードに重大なセキュリティ脆弱性を頻繁に導入する。
我々は、構造化されたセキュリティ推論を内部化するためのRTMを教える微調整パイプラインであるSecPIを提案する。
論文 参考訳(メタデータ) (2026-04-04T04:29:11Z) - Robust Multimodal Safety via Conditional Decoding [52.92816441364308]
マルチモーダル大規模言語モデル(MLLM)は、有害なクエリが相互モーダル相互作用を悪用した場合、しばしば安全性の低下を経験する。
本稿では,MLLMの内部表現を利用して応答生成前の二項安全トークンを予測する,シンプルな条件付きデコード戦略であるCASAを提案する。
論文 参考訳(メタデータ) (2026-03-31T23:19:50Z) - Steering Externalities: Benign Activation Steering Unintentionally Increases Jailbreak Risk for Large Language Models [62.16655896700062]
活性化ステアリングは大規模言語モデル(LLM)の有用性を高める技術である
重要かつ過度に調査された安全リスクを無意識に導入することを示します。
実験によると、これらの介入は強制乗算器として機能し、ジェイルブレイクに新たな脆弱性を発生させ、標準ベンチマークで攻撃成功率を80%以上向上させる。
論文 参考訳(メタデータ) (2026-02-03T12:32:35Z) - SecureCAI: Injection-Resilient LLM Assistants for Cybersecurity Operations [0.0]
本稿では,SecureCAIについて紹介する。SecureCAIは,セキュリティに配慮したガードレールによって,憲法上のAI原則を拡張した新しい防御フレームワークである。
SecureCAIはベースラインモデルと比較して攻撃成功率を94.7%削減する。
論文 参考訳(メタデータ) (2026-01-12T18:59:45Z) - Categorical Framework for Quantum-Resistant Zero-Trust AI Security [0.0]
我々は、セキュアなAIモデルのために、ポスト量子暗号(PQC)とゼロ信頼アーキテクチャ(AZT)の新たな統合を提案する。
我々のフレームワークは、暗号アクセスを射として、信頼ポリシーを関手として、一意にモデル化する。
具体的ESP32実装による実効性を示す。
論文 参考訳(メタデータ) (2025-11-25T17:17:24Z) - Death by a Thousand Prompts: Open Model Vulnerability Analysis [0.06213771671016099]
オープンウェイトモデルは、研究者や開発者に対して、さまざまなダウンストリームアプリケーションの基礎を提供します。
8つのオープンウェイトな大規模言語モデル(LLM)の安全性とセキュリティの姿勢をテストし、その後の微調整とデプロイメントに影響を与える可能性のある脆弱性を特定しました。
以上の結果から, マルチターン攻撃による成功率は25.86%から92.78%であった。
論文 参考訳(メタデータ) (2025-11-05T07:22:24Z) - Beyond Algorithmic Proofs: Towards Implementation-Level Provable Security [1.338174941551702]
我々は,実世界の攻撃面に対して構造的に検証可能なレジリエンスの観点からセキュリティを定義する新しいパラダイムである,実装レベル確率セキュリティを提案する。
本稿では,ファイル破壊システムであるSEER(Secure and Efficient Encryption-based Erasure via Ransomware)について述べる。
論文 参考訳(メタデータ) (2025-08-02T01:58:06Z) - Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security [63.41350337821108]
マルチモーダル大規模言語モデル(MLLM)のセキュリティを高めるために,Secure Tug-of-War(SecTOW)を提案する。
SecTOWは2つのモジュールで構成される:ディフェンダーと補助攻撃者。どちらも強化学習(GRPO)を使用して反復的に訓練される。
SecTOWは、一般的な性能を維持しながら、セキュリティを大幅に改善することを示す。
論文 参考訳(メタデータ) (2025-07-29T17:39:48Z) - Automating Steering for Safe Multimodal Large Language Models [58.36932318051907]
基礎モデルの微調整を必要とせず,モジュール型かつ適応型推論時間介入技術であるAutoSteerを導入する。
AutoSteerは,(1)モデル内部層間の最も安全性に関連のある識別を自動的に行う新しい安全意識スコア(SAS),(2)中間表現から有害な出力の可能性を推定するために訓練された適応安全プローバ,(3)安全性のリスクが検出された場合に生成を選択的に介入する軽量な拒絶ヘッドの3つのコアコンポーネントを組み込んだ。
論文 参考訳(メタデータ) (2025-07-17T16:04:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。