論文の概要: Is Vibe Coding the Future? An Empirical Assessment of LLM Generated Codes for Construction Safety
- arxiv url: http://arxiv.org/abs/2604.12311v1
- Date: Tue, 14 Apr 2026 05:42:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.262783
- Title: Is Vibe Coding the Future? An Empirical Assessment of LLM Generated Codes for Construction Safety
- Title(参考訳): バイブ符号化は未来か? : 建設安全のためのLLM生成符号の実証評価
- Authors: S M Jamil Uddin,
- Abstract要約: 本研究では,450のビブ符号化Pythonスクリプトの信頼性,ソフトウェアアーキテクチャ,ドメイン固有の安全性を実証的に評価する。
その結果、ユーザペルソナとデータ幻覚の極めて重要な関係が明らかとなり、フォーマルでないプロンプトがAIの適合性を劇的に増加させ、欠落した安全変数を発明することを示した。
- 参考スコア(独自算出の注目度): 0.14504054468850666
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of vibe coding, a paradigm where non-technical users instruct Large Language Models (LLMs) to generate executable codes via natural language, presents both significant opportunities and severe risks for the construction industry. While empowering construction personnel such as the safety managers, foremen, and workers to develop tools and software, the probabilistic nature of LLMs introduces the threat of silent failures, wherein generated code compiles perfectly but executes flawed mathematical safety logic. This study empirically evaluates the reliability, software architecture, and domain-specific safety fidelity of 450 vibe-coded Python scripts generated by three frontier models, Claude 3.5 Haiku, GPT-4o-Mini, and Gemini 2.5 Flash. Utilizing a persona-driven prompt dataset (n=150) and a bifurcated evaluation pipeline comprising isolated dynamic sandboxing and an LLM-as-a-Judge, the research quantifies the severe limits of zero-shot vibe codes for construction safety. The findings reveal a highly significant relationship between user persona and data hallucination, demonstrating that less formal prompts drastically increase the AI's propensity to invent missing safety variables. Furthermore, while the models demonstrated high foundational execution viability (~85%), this syntactic reliability actively masked logic deficits and a severe lack of defensive programming. Among successfully executed scripts, the study identified an alarming ~45% overall Silent Failure Rate, with GPT-4o-Mini generating mathematically inaccurate outputs in ~56% of its functional code. The results demonstrate that current LLMs lack the deterministic rigor required for standalone safety engineering, necessitating the adoption of deterministic AI wrappers and strict governance for cyber-physical deployments.
- Abstract(参考訳): 非技術者がLarge Language Models(LLM)に自然言語による実行可能コード生成を指示するパラダイムであるビブコーディングの出現は、建設業界にとって大きな機会と深刻なリスクをもたらす。
安全管理者や前任者、労働者といった建設担当者にツールやソフトウェアを開発する権限を与える一方で、LCMの確率的な性質はサイレント障害の脅威をもたらし、生成されたコードは完璧にコンパイルされるが、欠陥のある数学的安全論理を実行する。
本研究では,3つのフロンティアモデル(Claude 3.5 Haiku, GPT-4o-Mini, Gemini 2.5 Flash)によって生成される450のビブ符号化Pythonスクリプトの信頼性,ソフトウェアアーキテクチャ,およびドメイン固有の安全性を実証的に評価する。
動的サンドボックスとLCM-as-a-Judgeからなるペルソナ駆動のプロンプトデータセット(n=150)と分岐評価パイプラインを用いて,建設安全のためのゼロショットビブ符号の厳密な制限を定量化する。
この発見は、ユーザーペルソナとデータ幻覚の間に非常に重要な関係があることを示し、フォーマルでないプロンプトがAIの適合性を劇的に増加させ、欠落した安全変数を発明することを示した。
さらに、モデルが基礎的な実行可能性(約85%)を示す一方で、この構文的信頼性は論理的欠陥を積極的に隠蔽し、防御プログラミングの深刻な欠如を隠蔽した。
GPT-4o-Miniは関数コードの約56%で数学的に不正確な出力を生成する。
その結果、現在のLLMには、スタンドアロンの安全エンジニアリングに必要な決定論的厳格さが欠如していること、決定論的AIラッパーの採用、サイバー物理デプロイメントの厳格なガバナンスが欠如していることが示されている。
関連論文リスト
- RealSec-bench: A Benchmark for Evaluating Secure Code Generation in Real-World Repositories [58.32028251925354]
LLM(Large Language Models)は、コード生成において顕著な能力を示しているが、セキュアなコードを生成する能力は依然として重要で、未調査の領域である。
我々はRealSec-benchを紹介します。RealSec-benchは、現実世界の高リスクなJavaリポジトリから慎重に構築されたセキュアなコード生成のための新しいベンチマークです。
論文 参考訳(メタデータ) (2026-01-30T08:29:01Z) - Casting a SPELL: Sentence Pairing Exploration for LLM Limitation-breaking [23.54890959996959]
大規模言語モデル(LLM)は、AI支援コーディングツールを通じてソフトウェア開発に革命をもたらした。
このアクセシビリティは、これらの強力なツールを利用して有害なソフトウェアを生成する悪意のあるアクターにまで拡張される。
本研究では,悪意のあるコード生成におけるセキュリティアライメントの弱点を評価するための総合的なテストフレームワークであるSPELLを提案する。
論文 参考訳(メタデータ) (2025-12-24T15:25:31Z) - A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code [49.009041488527544]
A.S.Eは、AI生成コードのセキュリティを評価するためのリポジトリレベルの評価ベンチマークである。
現在の大規模言語モデル(LLM)は、セキュアなコーディングに苦戦している。
大きな推論予算は、必ずしもより良いコード生成につながるとは限らない。
論文 参考訳(メタデータ) (2025-08-25T15:11:11Z) - LLM-GUARD: Large Language Model-Based Detection and Repair of Bugs and Security Vulnerabilities in C++ and Python [0.0]
ChatGPT-4、Claude 3、LLaMA 4のような大規模言語モデル(LLM)は、ソフトウェア/アプリケーション開発にますます組み込まれている。
本研究では,プログラムエラー,古典的セキュリティ欠陥,およびC++とPythonの高度なプロダクショングレードバグのベンチマークを用いて,これら3つの主要なLCMの体系的,実証的な評価を行う。
論文 参考訳(メタデータ) (2025-08-22T14:30:24Z) - Are AI-Generated Fixes Secure? Analyzing LLM and Agent Patches on SWE-bench [9.229310642804036]
我々は,SWE-benchデータセットから2万以上の問題を用いて,LLM生成パッチの大規模セキュリティ解析を行った。
スタンドアロンのLCM(Llama 3.3)によるパッチを評価し,開発者によるパッチと比較した。
また、データのサブセットに基づいて、トップパフォーマンスのエージェントフレームワーク(OpenHands、AutoCodeRover、HoneyComb)3つによって生成されたパッチのセキュリティを評価します。
論文 参考訳(メタデータ) (2025-06-30T21:10:19Z) - The Hidden Risks of LLM-Generated Web Application Code: A Security-Centric Evaluation of Code Generation Capabilities in Large Language Models [0.769672852567215]
本稿では,複数のモデルにまたがるLLM生成コードのセキュリティコンプライアンスを評価するために,予め定義されたセキュリティパラメータを用いる。
この分析は、認証機構、セッション管理、入力バリデーション、HTTPセキュリティヘッダに重大な脆弱性を明らかにしている。
我々の発見は、LLM生成コードのセキュアなソフトウェアデプロイメントやレビューのために、人間の専門知識が不可欠であることを示している。
論文 参考訳(メタデータ) (2025-04-29T10:23:11Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - CodeAttack: Revealing Safety Generalization Challenges of Large Language Models via Code Completion [117.178835165855]
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。
我々の研究は、コード入力に対するこれらのモデルの新たな、普遍的な安全性の脆弱性を明らかにした。
CodeAttackと自然言語の分布ギャップが大きくなると、安全性の一般化が弱くなる。
論文 参考訳(メタデータ) (2024-03-12T17:55:38Z) - Understanding the Effectiveness of Large Language Models in Detecting Security Vulnerabilities [12.82645410161464]
5つの異なるセキュリティデータセットから5,000のコードサンプルに対して、16の事前学習された大規模言語モデルの有効性を評価する。
全体として、LSMは脆弱性の検出において最も穏やかな効果を示し、データセットの平均精度は62.8%、F1スコアは0.71である。
ステップバイステップ分析を含む高度なプロンプト戦略は、F1スコア(平均0.18まで)で実世界のデータセット上でのLLMのパフォーマンスを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-11-16T13:17:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。