Fugu-MT 論文翻訳(概要): Lightweight Yet Secure: Secure Scripting Language Generation via Lightweight LLMs

論文の概要: Lightweight Yet Secure: Secure Scripting Language Generation via Lightweight LLMs

arxiv url: http://arxiv.org/abs/2601.06419v1
Date: Sat, 10 Jan 2026 04:00:56 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-13 19:08:00.803484
Title: Lightweight Yet Secure: Secure Scripting Language Generation via Lightweight LLMs
Title（参考訳）: Lightweight And Secure: Lightweight LLMによるセキュアなスクリプト言語生成
Authors: Keyang Zhang, Zeyu Chen, Xuan Feng, Dongliang Fang, Yaowen Zheng, Zhi Li, Limin Sun,
Abstract要約: 大規模言語モデル(LLM)は、コード生成、脆弱性検出、PythonやJavaScriptなどの言語の自動修正において、強力な機能を示している。 SecGenEval-PSは,セキュアなスクリプティング生成,セキュリティ解析,自動修復においてLLMを評価するために設計されたベンチマークである。モデルセキュリティ機能を強化するために,データ合成と微調整を組み合わせたフレームワークPSSecを提案する。
参考スコア（独自算出の注目度）: 14.355160053196824
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The security of scripting languages such as PowerShell is critical given their powerful automation and administration capabilities, often exercised with elevated privileges. Today, securing these languages still demands substantial human effort to craft and enforce rules, imposing heavy burdens on typical administrators and creating critical production risks (e.g., misoperations that shut down servers).Large language models (LLMs) have demonstrated strong capabilities in code generation, vulnerability detection, and automated repair for languages like Python and JavaScript. However, their ability to assist with generating secure scripting-language code remains largely underexplored. In this paper, we present SecGenEval-PS, a benchmark designed to systematically evaluate LLMs on secure scripting generation, security analysis, and automated repair. Our results show that both proprietary and open-source models fall short in these areas. For instance, over 60% of PowerShell scripts produced by GPT-4o and o3-mini are insecure without structured guidance.To bridge this gap, we propose PSSec, a framework that combines data synthesis with fine-tuning to enhance model security capabilities. We develop a self-debugging agent that integrates static analyzers with the reasoning abilities of advanced LLMs to synthesize large-scale structured triplets of insecure scripts, violation analyses, and corresponding repairs. We then fine-tune lightweight LLMs (as small as 1.7B parameters) using supervised fine-tuning (SFT) and reinforcement learning (RL), enabling security-aware reasoning and the generation of secure PowerShell code.Across multiple LLM families, including GPT and Qwen, \textit{PSSec}-trained models match or surpass general-purpose large models on PowerShell security tasks while reducing inference cost by more than an order of magnitude.
Abstract（参考訳）: PowerShellのようなスクリプト言語のセキュリティは、強力な自動化機能と管理機能を備えており、しばしば高特権で実行されているため、非常に重要である。現在、これらの言語をセキュアにするためには、一般的な管理者に重荷を課し、重要な生産リスク(例えば、サーバをシャットダウンする不正操作)を生じさせるような、ルールの作成と実施に相当な人的努力が必要である。大規模言語モデル(LLM)は、コード生成、脆弱性検出、PythonやJavaScriptなどの言語の自動修正において、強力な機能を示している。しかし、セキュアなスクリプティング言語コードの生成を支援する能力は、いまだに未熟である。本稿では,セキュアなスクリプティング生成,セキュリティ解析,自動修復において,LLMを体系的に評価するベンチマークSecGenEval-PSを提案する。我々の結果は、プロプライエタリモデルとオープンソースモデルの両方がこれらの領域で不足していることを示している。例えば、GPT-4oとo3-miniで生成されたPowerShellスクリプトの60%以上が、構造化されたガイダンスなしで安全ではない。このギャップを埋めるために、データ合成と微調整を組み合わせたフレームワークPSSecを提案する。我々は,静的解析器と高度なLCMの推論能力を統合した自己デバッグエージェントを開発し,大規模に構造化された安全でないスクリプトのトリプレットを合成し,解析に違反し,それに対応する修復を行う。次に, 教師付き微調整(SFT)と強化学習(RL)を用いて, GPT や Qwen を含む複数の LLM ファミリーにおいて, 予測コストを1桁以上削減しつつ, PowerShell のセキュリティタスクにおいて, 汎用的な大規模モデルと一致するか, あるいは超えている。

関連論文リスト

Analysis of LLMs Against Prompt Injection and Jailbreak Attacks [7.685814179879813]
この研究は、大規模な手動でキュレートされたデータセットを使用して、プロンプトインジェクションとジェイルブレイクの脆弱性を評価する。内部安全機構によって引き起こされる、拒絶応答や完全な無声応答を含むモデル間での行動変化を観察する。
論文参考訳（メタデータ） (2026-02-24T12:32:11Z)
TypePilot: Leveraging the Scala Type System for Secure LLM-generated Code [46.747768845221735]
大規模言語モデル(LLM)は、様々なプログラミング言語のコード生成タスクにおいて顕著な習熟度を示している。それらのアウトプットには微妙だが重要な脆弱性があり、セキュリティに敏感なシステムやミッションクリティカルなシステムにデプロイすると重大なリスクが生じる。本稿では,LLM生成コードのセキュリティとロバスト性を高めるために設計されたエージェントAIフレームワークであるTypePilotを紹介する。
論文参考訳（メタデータ） (2025-10-13T08:44:01Z)
Are AI-Generated Fixes Secure? Analyzing LLM and Agent Patches on SWE-bench [9.229310642804036]
我々は,SWE-benchデータセットから2万以上の問題を用いて,LLM生成パッチの大規模セキュリティ解析を行った。スタンドアロンのLCM(Llama 3.3)によるパッチを評価し,開発者によるパッチと比較した。また、データのサブセットに基づいて、トップパフォーマンスのエージェントフレームワーク(OpenHands、AutoCodeRover、HoneyComb)3つによって生成されたパッチのセキュリティを評価します。
論文参考訳（メタデータ） (2025-06-30T21:10:19Z)
Guiding AI to Fix Its Own Flaws: An Empirical Study on LLM-Driven Secure Code Generation [16.29310628754089]
大規模言語モデル(LLM)は、コードの自動生成のための強力なツールになっている。 LLMは、しばしば重要なセキュリティプラクティスを見落とし、安全でないコードを生成する。本稿では、安全性の低いコードを生成するための固有の傾向、自己生成する脆弱性ヒントによってガイドされた場合にセキュアなコードを生成する能力、フィードバックレベルが異なる場合に脆弱性を修復する効果について検討する。
論文参考訳（メタデータ） (2025-06-28T23:24:33Z)
From Vulnerabilities to Remediation: A Systematic Literature Review of LLMs in Code Security [0.0]
大規模言語モデル(LLM)は、様々なプログラミングタスクを自動化する強力なツールとして登場した。 LLMはプログラマが知らない脆弱性を導入する可能性がある。コードを解析する際には、明確な脆弱性を見逃したり、存在しない脆弱性を通知する可能性がある。
論文参考訳（メタデータ） (2024-12-19T16:20:22Z)
Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [50.980446687774645]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。 Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文参考訳（メタデータ） (2024-10-24T06:36:12Z)
AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents [84.96249955105777]
LLMエージェントは誤用された場合、より大きなリスクを引き起こすが、その堅牢性は未発見のままである。我々は, LLMエージェント誤用の研究を容易にするために, AgentHarmと呼ばれる新しいベンチマークを提案する。主要なLLMは、ジェイルブレイクなしで悪意のあるエージェント要求に驚くほど準拠している。
論文参考訳（メタデータ） (2024-10-11T17:39:22Z)
How Well Do Large Language Models Serve as End-to-End Secure Code Agents for Python? [42.119319820752324]
GPT-3.5 と GPT-4 の 4 つの LLM で生成されたコードの脆弱性を識別し,修復する能力について検討した。 4900のコードを手動または自動でレビューすることで、大きな言語モデルにはシナリオ関連セキュリティリスクの認識が欠けていることが判明した。修復の1ラウンドの制限に対処するため,LLMにより安全なソースコード構築を促す軽量ツールを開発した。
論文参考訳（メタデータ） (2024-08-20T02:42:29Z)
AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文参考訳（メタデータ） (2024-03-14T15:57:13Z)
PPTC-R benchmark: Towards Evaluating the Robustness of Large Language Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。 GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文参考訳（メタデータ） (2024-03-06T15:33:32Z)
Attack Prompt Generation for Red Teaming and Defending Large Language Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文参考訳（メタデータ） (2023-10-19T06:15:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。