Fugu-MT 論文翻訳(概要): A Quasi-Experimental Developer Study of Security Training in LLM-Assisted Web Application Development

論文の概要: A Quasi-Experimental Developer Study of Security Training in LLM-Assisted Web Application Development

arxiv url: http://arxiv.org/abs/2604.17763v1
Date: Mon, 20 Apr 2026 03:34:29 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-21 21:52:52.677595
Title: A Quasi-Experimental Developer Study of Security Training in LLM-Assisted Web Application Development
Title（参考訳）: LLM支援Webアプリケーション開発におけるセキュリティトレーニングの準実験的研究
Authors: Mohammed Kharma, Ahmed Sabbah, Radi Jarrar, Samer Zain, Mohammad Alkhanafseh, David Mohaisen,
Abstract要約: 実験では,事前学習と訓練後比較を併用した混合設計と,対象間の専門的要因を探索的に比較した。主要参加者レベルエンドポイントは重度重み付き検証弱度スコアであった。訓練後の条件は、正確なウィルコクソンの署名ランク試験で有意な対の減少を示した。
参考スコア（独自算出の注目度）: 9.493071661387596
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: This paper presents a controlled quasi-experimental developer study examining whether a layer-based security training package is associated with improved security quality in LLM-assisted implementation of an identity-centric Java Spring Boot backend. The study uses a mixed design with a within-subject pre-training versus post-training comparison and an exploratory between-subject expertise factor. Twelve developers completed matched runs under a common interface, fixed model configuration, counterbalanced task sets, and a shared starter project. Security outcomes were assessed via independent manual validation of submitted repositories by the first and second authors. The primary participant-level endpoint was a severity-weighted validated-weakness score. The post-training condition showed a significant paired reduction under an exact Wilcoxon signed-rank test ($p = 0.0059$). In aggregate, validated weaknesses decreased from 162 to 111 (31.5\%), the severity-weighted burden decreased from 432 to 267 (38.2\%), and critical findings decreased from 24 to 5 (79.2\%). The largest reductions were in authorization and object access (53.3\%) and in authentication, credential policy, and recovery weaknesses (44.7\%). Session and browser trust-boundary issues showed minimal change, while sensitive-data and cryptographic weaknesses showed only marginal improvement. These results suggest that, under the tested conditions, post-training runs reduce validated security burden in LLM-assisted backend development without modifying the model. They do not support replacing secure defaults, static analysis, expert review, or operational hardening.
Abstract（参考訳）: 本稿では,レイヤベースのセキュリティトレーニングパッケージが,識別中心のJava Spring Bootバックエンドの実装において,セキュリティ品質の向上に結びついているかどうかを,準実験により検証した。実験では,事前学習と訓練後比較を併用した混合設計と,対象間の専門的要因を探索的に比較した。 12人の開発者がマッチした実行を、共通のインターフェース、固定されたモデル構成、タスクセットのバランスの相違、共有スタータプロジェクトの下で完了した。セキュリティ結果は、第1および第2の著者によって提出されたリポジトリの独立した手作業による検証を通じて評価された。主要参加者レベルエンドポイントは重度重み付き検証弱度スコアであった。訓練後の条件はウィルコクソンの符号付きランク検定(p = 0.0059$)の下で有意な対の減少を示した。総合すると、検証された弱点は162から111(1.5%)に減少し、重度重み付き負荷は432から267(38.2%)に減少し、重大な発見は24から5(79.2%)に減少した。最大の削減は、認証とオブジェクトアクセス(53.3\%)、認証、クレデンシャルポリシー、リカバリの弱点(44.7\%)であった。セッションとブラウザの信頼境界問題は最小限の変更を示し、機密データと暗号化の弱点は限界的な改善しか示さなかった。これらの結果から, 試験条件下では, モデルの変更を伴わずに, LLM支援バックエンド開発におけるセキュリティ負荷を軽減できることが示唆された。セキュアなデフォルトの置き換え、静的解析、エキスパートレビュー、運用のハードニングはサポートしていない。

関連論文リスト

SecPI: Secure Code Generation with Reasoning Models via Security Reasoning Internalization [50.71047638695205]
RLM(Reasoning Language Model)は、プログラミングにおいてますます使われている言語モデルである。しかし、最先端のRLMでさえ、生成されたコードに重大なセキュリティ脆弱性を頻繁に導入する。我々は、構造化されたセキュリティ推論を内部化するためのRTMを教える微調整パイプラインであるSecPIを提案する。
論文参考訳（メタデータ） (2026-04-04T04:29:11Z)
Measuring and Exploiting Confirmation Bias in LLM-Assisted Security Code Review [6.417595678110472]
ソフトウェアサプライチェーン攻撃において,確認バイアスがLSMベースの脆弱性検出に影響を及ぼすか,また,この障害モードを悪用できるかを検討する。調査1では,5つのフレーミング条件下で4つの最先端モデルに対して評価された250個のCVE脆弱性/パッチペアに対する制御実験により,確認バイアスを定量化する。調査2は、既知の脆弱性を再導入する敵のプルリクエストを模倣して、セキュリティの改善やプルリクエストメタデータによる緊急機能修正を実施可能であることを評価する。
論文参考訳（メタデータ） (2026-03-19T10:40:27Z)
Why LLMs Fail: A Failure Analysis and Partial Success Measurement for Automated Security Patch Generation [0.0]
この研究では、Vul4Jベンチマークから64のJava脆弱性にまたがる319のLarge Language Models (LLM)生成セキュリティパッチを分析した。三軸評価を用いて分析したところ、パッチの24.8%だけが完全な正当性を達成し、51.4%はセキュリティと機能の両方に失敗していることがわかった。提案されたSecurity repair Score (SRS)はこのギャップを定量化し、LLMが機能を保存する(平均0.832)が、セキュリティに苦しむ(平均0.251)。
論文参考訳（メタデータ） (2026-03-10T05:34:56Z)
Towards Reliable and Practical LLM Security Evaluations via Bayesian Modelling [1.0266286487433585]
新しい大規模言語モデル(LLM)アーキテクチャを採用する前に、脆弱性を正確に理解することが重要である。既存の評価を信頼することは困難であり、しばしばLLMから結論を導き出す。インジェクション攻撃の迅速化を目的としたLCM脆弱性評価のための,原則的かつ実用的なエンドツーエンドフレームワークを提案する。
論文参考訳（メタデータ） (2025-10-07T09:22:22Z)
A Granular Study of Safety Pretraining under Model Abliteration [64.24346997570275]
本稿では,リフレクションに敏感な方向を除去する軽量プロジェクション技術であるモデルアブリーブレーションについて検討する。我々は、バランスのとれた有害かつ無害なケースで100のプロンプトを発行し、複数の判断を用いて**Refusal*または***Non-Refusal*として応答を分類し、判断の忠実さを検証する。本研究は,データ中心の安全コンポーネントが失語中も頑健であるチェックポイントレベルの特徴付けを行う。
論文参考訳（メタデータ） (2025-10-03T07:01:45Z)
CLUE: Non-parametric Verification from Experience via Hidden-State Clustering [64.50919789875233]
隠れアクティベーションの軌跡内の幾何的に分離可能なシグネチャとして解の正しさが符号化されていることを示す。 ClUE は LLM-as-a-judge ベースラインを一貫して上回り、候補者の再選において近代的な信頼に基づく手法に適合または超えている。
論文参考訳（メタデータ） (2025-10-02T02:14:33Z)
VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文参考訳（メタデータ） (2025-09-15T02:25:38Z)
VulnRepairEval: An Exploit-Based Evaluation Framework for Assessing Large Language Model Vulnerability Repair Capabilities [41.85494398578654]
VulnRepairEvalは、関数型Proof-of-Conceptエクスプロイトに固定された評価フレームワークである。我々のフレームワークは、再現可能な微分評価を可能にする包括的でコンテナ化された評価パイプラインを提供する。
論文参考訳（メタデータ） (2025-09-03T14:06:10Z)
VADER: A Human-Evaluated Benchmark for Vulnerability Assessment, Detection, Explanation, and Remediation [0.8087612190556891]
VADERは174の現実世界のソフトウェア脆弱性で構成されており、それぞれがGitHubから慎重にキュレーションされ、セキュリティ専門家によって注釈付けされている。各脆弱性ケースに対して、モデルは欠陥を特定し、Common Weaknession(CWE)を使用して分類し、その根本原因を説明し、パッチを提案し、テストプランを策定する。ワンショットプロンプト戦略を用いて、VADER上で6つの最先端LCM(Claude 3.7 Sonnet, Gemini 2.5 Pro, GPT-4.1, GPT-4.5, Grok 3 Beta, o3)をベンチマークする。我々の結果は現在の状態を示している。
論文参考訳（メタデータ） (2025-05-26T01:20:44Z)
AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文参考訳（メタデータ） (2025-04-29T17:36:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。