論文の概要: Is Vibe Coding Safe? Benchmarking Vulnerability of Agent-Generated Code in Real-World Tasks
- arxiv url: http://arxiv.org/abs/2512.03262v1
- Date: Tue, 02 Dec 2025 22:11:56 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 11:55:42.647206
- Title: Is Vibe Coding Safe? Benchmarking Vulnerability of Agent-Generated Code in Real-World Tasks
- Title(参考訳): バイブ符号化は安全か? : 実世界のタスクにおけるエージェント生成コードのベンチマーク可能性
- Authors: Songwen Zhao, Danqing Wang, Kexun Zhang, Jiaxuan Luo, Zhuo Li, Lei Li,
- Abstract要約: バイブコーディングは、人間のエンジニアが大規模言語モデル(LLM)エージェントに複雑なコーディングタスクをほとんど監督せずに完了するよう指示する新しいプログラミングパラダイムである。
実世界のオープンソースプロジェクトから200の機能要求ソフトウェアエンジニアリングタスクからなるベンチマークを提示する。
我々の発見は、特にセキュリティに敏感なアプリケーションにおいて、バイブコーディングが広く採用されているという深刻な懸念を提起する。
- 参考スコア(独自算出の注目度): 22.499464760561434
- License:
- Abstract: Vibe coding is a new programming paradigm in which human engineers instruct large language model (LLM) agents to complete complex coding tasks with little supervision. Although it is increasingly adopted, are vibe coding outputs really safe to deploy in production? To answer this question, we propose SU S VI B E S, a benchmark consisting of 200 feature-request software engineering tasks from real-world open-source projects, which, when given to human programmers, led to vulnerable implementations. We evaluate multiple widely used coding agents with frontier models on this benchmark. Disturbingly, all agents perform poorly in terms of software security. Although 61% of the solutions from SWE-Agent with Claude 4 Sonnet are functionally correct, only 10.5% are secure. Further experiments demonstrate that preliminary security strategies, such as augmenting the feature request with vulnerability hints, cannot mitigate these security issues. Our findings raise serious concerns about the widespread adoption of vibe-coding, particularly in security-sensitive applications.
- Abstract(参考訳): バイブコーディングは、人間のエンジニアが大規模言語モデル(LLM)エージェントに複雑なコーディングタスクをほとんど監督せずに完了するよう指示する新しいプログラミングパラダイムである。
採用が増えているが、Vibeのコーディングアウトプットは本番環境でのデプロイには本当に安全か?
この問題に対処するために,現実世界のオープンソースプロジェクトから200の機能要求ソフトウェアエンジニアリングタスクからなるベンチマークSU S VI B E Sを提案する。
このベンチマークで、フロンティアモデルを用いた複数の広く使われている符号化エージェントを評価した。
意外なことに、すべてのエージェントは、ソフトウェアセキュリティの点でパフォーマンスが悪くなります。
SWE-AgentとClaude 4 Sonnetの解の61%は機能的に正しいが、10.5%しか安全ではない。
さらなる実験では、機能要求を脆弱性ヒントで強化するような予備的なセキュリティ戦略は、これらのセキュリティ問題を緩和できないことが示されている。
我々の発見は、特にセキュリティに敏感なアプリケーションにおいて、バイブコーディングが広く採用されているという深刻な懸念を提起する。
関連論文リスト
- RedCodeAgent: Automatic Red-teaming Agent against Diverse Code Agents [70.24175620901538]
コードエージェントは、強力なコード生成機能とコードインタプリタとの統合により、広く採用されている。
現在の静的安全性ベンチマークとレッドチームツールは、出現する現実世界のリスクシナリオを特定するのに不十分である。
我々はRedCodeAgentを提案する。RedCodeAgentは、多様なコードエージェントの脆弱性を体系的に発見するように設計された、最初の自動リピートエージェントである。
論文 参考訳(メタデータ) (2025-10-02T22:59:06Z) - Takedown: How It's Done in Modern Coding Agent Exploits [11.214918024551638]
本研究では,8つの実世界の符号化エージェントの総合的セキュリティ分析を行う。
ユーザシステムの機密性や整合性を損なうために悪用される可能性のある,これまで見過ごされあるいは見逃された問題を含む,15のセキュリティ問題を特定します。
論文 参考訳(メタデータ) (2025-09-29T03:27:18Z) - A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code [49.009041488527544]
A.S.Eは、AI生成コードのセキュリティを評価するためのリポジトリレベルの評価ベンチマークである。
現在の大規模言語モデル(LLM)は、セキュアなコーディングに苦戦している。
大きな推論予算は、必ずしもより良いコード生成につながるとは限らない。
論文 参考訳(メタデータ) (2025-08-25T15:11:11Z) - OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - LLMs in Coding and their Impact on the Commercial Software Engineering Landscape [0.0]
大規模言語モデルコーディングツールは現在、ソフトウェア工学において主流となっている。
しかし、こうしたツールが人間の努力を開発スタックに移すにつれ、新たな危険が生じます。
企業はすべてのAI生成コードにタグを付け、レビューする必要がある、と私たちは主張する。
論文 参考訳(メタデータ) (2025-06-19T23:43:54Z) - CyberGym: Evaluating AI Agents' Real-World Cybersecurity Capabilities at Scale [45.97598662617568]
我々は188のソフトウェアプロジェクトにわたる1,507の実際の脆弱性を特徴とする大規模ベンチマークであるCyberGymを紹介した。
我々はCyberGymが35のゼロデイ脆弱性と17の歴史的不完全なパッチを発見できることを示した。
これらの結果は、CyberGymは、サイバーセキュリティにおけるAIの進歩を測定するための堅牢なベンチマークであるだけでなく、直接的な現実世界のセキュリティ効果を生み出すためのプラットフォームでもあることを強調している。
論文 参考訳(メタデータ) (2025-06-03T07:35:14Z) - SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents [58.65256663334316]
我々は,対話型シミュレーション環境におけるLLMエージェントの安全性を考慮したタスク計画のための最初のベンチマークであるSafeAgentBenchを紹介する。
SafeAgentBenchは、(1)10の潜在的な危険と3つのタスクタイプをカバーするために厳格にキュレートされた750のタスクの実行可能な多種多様な高品質データセット、(2)低レベルコントローラを備えた普遍的な実施環境、9つの最先端ベースラインに対して17のハイレベルアクションでマルチエージェント実行をサポートするSafeAgentEnv、(3)実行とセマンティックの両方の観点から信頼性の高い評価方法を含む。
論文 参考訳(メタデータ) (2024-12-17T18:55:58Z) - RedCode: Risky Code Execution and Generation Benchmark for Code Agents [50.81206098588923]
RedCodeはリスクの高いコード実行と生成のためのベンチマークである。
RedCode-Execは、危険なコード実行につながる可能性のある、挑戦的なプロンプトを提供する。
RedCode-Genは160のプロンプトに関数シグネチャとドキュメントを入力として提供し、コードエージェントが命令に従うかどうかを評価する。
論文 参考訳(メタデータ) (2024-11-12T13:30:06Z) - Evaluating Software Development Agents: Patch Patterns, Code Quality, and Issue Complexity in Real-World GitHub Scenarios [13.949319911378826]
この調査は、500の現実のGitHubイシューで上位10のエージェントから4,892のパッチを評価した。
一人のエージェントが支配的であり、170の問題が未解決であり、改善の余地があった。
ほとんどのエージェントはコードの信頼性とセキュリティを維持し、新しいバグや脆弱性を避けた。
一部のエージェントはコードの複雑さを増し、多くの重複を減らし、コードの臭いを最小限にした。
論文 参考訳(メタデータ) (2024-10-16T11:33:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。