論文の概要: When AI Takes the Wheel: Security Analysis of Framework-Constrained Program Generation
- arxiv url: http://arxiv.org/abs/2510.16823v1
- Date: Sun, 19 Oct 2025 13:19:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.167858
- Title: When AI Takes the Wheel: Security Analysis of Framework-Constrained Program Generation
- Title(参考訳): AIが車輪を握る:フレームワークに制約のあるプログラム生成のセキュリティ分析
- Authors: Yue Liu, Zhenchang Xing, Shidong Pan, Chakkrit Tantithamthavorn,
- Abstract要約: 本研究では,最先端LLMが生成するフレームワーク制約プログラムのセキュリティ特性について検討する。
複数の特権境界と分離されたコンポーネントを含む複雑なセキュリティモデルのために、Chromeエクステンションに特化しています。
これらのプロンプトを使用して、9つの最先端のLCMに、完全なChromeエクステンションを生成するように指示し、脆弱性を解析しました。
- 参考スコア(独自算出の注目度): 20.940139710065306
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, the AI wave has grown rapidly in software development. Even novice developers can now design and generate complex framework-constrained software systems based on their high-level requirements with the help of Large Language Models (LLMs). However, when LLMs gradually "take the wheel" of software development, developers may only check whether the program works. They often miss security problems hidden in how the generated programs are implemented. In this work, we investigate the security properties of framework-constrained programs generated by state-of-the-art LLMs. We focus specifically on Chrome extensions due to their complex security model involving multiple privilege boundaries and isolated components. To achieve this, we built ChromeSecBench, a dataset with 140 prompts based on known vulnerable extensions. We used these prompts to instruct nine state-of-the-art LLMs to generate complete Chrome extensions, and then analyzed them for vulnerabilities across three dimensions: scenario types, model differences, and vulnerability categories. Our results show that LLMs produced vulnerable programs at alarmingly high rates (18%-50%), particularly in Authentication & Identity and Cookie Management scenarios (up to 83% and 78% respectively). Most vulnerabilities exposed sensitive browser data like cookies, history, or bookmarks to untrusted code. Interestingly, we found that advanced reasoning models performed worse, generating more vulnerabilities than simpler models. These findings highlight a critical gap between LLMs' coding skills and their ability to write secure framework-constrained programs.
- Abstract(参考訳): 近年、AIの波はソフトウェア開発で急速に成長している。
初心者の開発者でさえ、LLM(Large Language Models)の助けを借りて、高いレベルの要求に基づいて、複雑なフレームワークに制約のあるソフトウェアシステムを設計し、生成できるようになった。
しかし、LCMが徐々にソフトウェア開発の「車輪を踏む」とき、開発者はプログラムが機能するかどうかのみを確認することができる。
彼らはしばしば、生成されたプログラムの実装方法に隠れたセキュリティ上の問題を見逃す。
本研究では,最先端のLCMが生成するフレームワーク制約プログラムのセキュリティ特性について検討する。
複数の特権境界と分離されたコンポーネントを含む複雑なセキュリティモデルのために、Chromeエクステンションに特化しています。
これを実現するために、既知の脆弱な拡張に基づいて140プロンプトのデータセットであるChromeSecBenchを構築しました。
これらのプロンプトを使用して、9つの最先端のLCMを使って完全なChromeエクステンションを生成し、シナリオタイプ、モデルの違い、脆弱性カテゴリの3次元にわたる脆弱性について分析しました。
以上の結果から, LLMは, 認証・ID・クッキー管理シナリオ(最大83%, 78%)において, 極めて高いレートで脆弱なプログラムを作成したことが示唆された。
ほとんどの脆弱性は、クッキー、履歴、ブックマークといった機密性の高いブラウザデータを信頼できないコードに公開しました。
興味深いことに、高度な推論モデルはより悪化し、より単純なモデルよりも多くの脆弱性が生じることがわかった。
これらの知見は、LLMのコーディングスキルとセキュアなフレームワーク制約プログラムを書く能力の間に重要なギャップを浮き彫りにしている。
関連論文リスト
- A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code [49.009041488527544]
A.S.Eは、AI生成コードのセキュリティを評価するためのリポジトリレベルの評価ベンチマークである。
現在の大規模言語モデル(LLM)は、セキュアなコーディングに苦戦している。
大きな推論予算は、必ずしもより良いコード生成につながるとは限らない。
論文 参考訳(メタデータ) (2025-08-25T15:11:11Z) - MGC: A Compiler Framework Exploiting Compositional Blindness in Aligned LLMs for Malware Generation [22.29476520010842]
大規模言語モデル(LLM)はソフトウェア開発を民主化し、複雑なアプリケーションをプログラミングする際の専門知識の障壁を減らした。
このアクセシビリティは、悪意のあるソフトウェア開発にまで拡張され、重大なセキュリティ上の懸念がもたらされる。
本稿では,モジュール分解とアライメント回避生成を通じて,この脆弱性を活用する新しいフレームワークであるMalware Generation Compiler(MGC)を紹介する。
論文 参考訳(メタデータ) (2025-07-02T18:00:49Z) - Are AI-Generated Fixes Secure? Analyzing LLM and Agent Patches on SWE-bench [9.229310642804036]
我々は,SWE-benchデータセットから2万以上の問題を用いて,LLM生成パッチの大規模セキュリティ解析を行った。
スタンドアロンのLCM(Llama 3.3)によるパッチを評価し,開発者によるパッチと比較した。
また、データのサブセットに基づいて、トップパフォーマンスのエージェントフレームワーク(OpenHands、AutoCodeRover、HoneyComb)3つによって生成されたパッチのセキュリティを評価します。
論文 参考訳(メタデータ) (2025-06-30T21:10:19Z) - CyberGym: Evaluating AI Agents' Real-World Cybersecurity Capabilities at Scale [45.97598662617568]
我々は188のソフトウェアプロジェクトにわたる1,507の実際の脆弱性を特徴とする大規模ベンチマークであるCyberGymを紹介した。
我々はCyberGymが35のゼロデイ脆弱性と17の歴史的不完全なパッチを発見できることを示した。
これらの結果は、CyberGymは、サイバーセキュリティにおけるAIの進歩を測定するための堅牢なベンチマークであるだけでなく、直接的な現実世界のセキュリティ効果を生み出すためのプラットフォームでもあることを強調している。
論文 参考訳(メタデータ) (2025-06-03T07:35:14Z) - The Hidden Risks of LLM-Generated Web Application Code: A Security-Centric Evaluation of Code Generation Capabilities in Large Language Models [0.769672852567215]
本稿では,複数のモデルにまたがるLLM生成コードのセキュリティコンプライアンスを評価するために,予め定義されたセキュリティパラメータを用いる。
この分析は、認証機構、セッション管理、入力バリデーション、HTTPセキュリティヘッダに重大な脆弱性を明らかにしている。
我々の発見は、LLM生成コードのセキュアなソフトウェアデプロイメントやレビューのために、人間の専門知識が不可欠であることを示している。
論文 参考訳(メタデータ) (2025-04-29T10:23:11Z) - Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [50.980446687774645]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。
我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。
Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文 参考訳(メタデータ) (2024-10-24T06:36:12Z) - Can We Trust Large Language Models Generated Code? A Framework for In-Context Learning, Security Patterns, and Code Evaluations Across Diverse LLMs [2.7138982369416866]
大規模言語モデル(LLM)は、ソフトウェア工学における自動コード生成に革命をもたらした。
しかし、生成されたコードのセキュリティと品質に関する懸念が持ち上がっている。
本研究は,LLMの行動学習をセキュアにするための枠組みを導入することで,これらの課題に対処することを目的とする。
論文 参考訳(メタデータ) (2024-06-18T11:29:34Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。