Fugu-MT 論文翻訳(概要): A Reward-driven Automated Webshell Malicious-code Generator for Red-teaming

論文の概要: A Reward-driven Automated Webshell Malicious-code Generator for Red-teaming

arxiv url: http://arxiv.org/abs/2505.24252v1
Date: Fri, 30 May 2025 06:16:42 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-02 19:47:52.799572
Title: A Reward-driven Automated Webshell Malicious-code Generator for Red-teaming
Title（参考訳）: Red-teaming のための逆駆動 Webshell 自動悪意コード生成装置
Authors: Yizhong Ding,
Abstract要約: 難読化メソッドによって整理された、公開され、適切に分類された悪意のあるコードデータセットが大幅に不足している。既存の悪意のあるコード生成手法は、主に迅速なエンジニアリングに依存しており、しばしばそれらが生成するペイロードの多様性と高い冗長性に悩まされる。我々は、red-teamingアプリケーション用に設計されたtextbfRAWG, textbfReward-driven textbfAutomated textbfWebshell Malicious-code textbfGeneratorを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Frequent cyber-attacks have elevated WebShell exploitation and defense to a critical research focus within network security. However, there remains a significant shortage of publicly available, well-categorized malicious-code datasets organized by obfuscation method. Existing malicious-code generation methods, which primarily rely on prompt engineering, often suffer from limited diversity and high redundancy in the payloads they produce. To address these limitations, we propose \textbf{RAWG}, a \textbf{R}eward-driven \textbf{A}utomated \textbf{W}ebshell Malicious-code \textbf{G}enerator designed for red-teaming applications. Our approach begins by categorizing webshell samples from common datasets into seven distinct types of obfuscation. We then employ a large language model (LLM) to extract and normalize key tokens from each sample, creating a standardized, high-quality corpus. Using this curated dataset, we perform supervised fine-tuning (SFT) on an open-source large model to enable the generation of diverse, highly obfuscated webshell malicious payloads. To further enhance generation quality, we apply Proximal Policy Optimization (PPO), treating malicious-code samples as "chosen" data and benign code as "rejected" data during reinforcement learning. Extensive experiments demonstrate that RAWG significantly outperforms current state-of-the-art methods in both payload diversity and escape effectiveness.
Abstract（参考訳）: 頻繁なサイバー攻撃により、WebShellのエクスプロイトと防御が強化され、ネットワークセキュリティにおける重要な研究対象となった。しかし、難読化法によって整理された、公開され、適切に分類された悪意のあるコードデータセットは、依然として大幅に不足している。既存の悪意のあるコード生成手法は、主に迅速なエンジニアリングに依存しており、しばしばそれらが生成するペイロードの多様性と高い冗長性に悩まされる。これらの制約に対処するため、赤チームアプリケーション用に設計されたtextbf{RAWG}, a \textbf{R}eward-driven \textbf{A}utomated \textbf{W}ebshell Malicious-code \textbf{G}eneratorを提案する。私たちのアプローチは、一般的なデータセットからWebshellサンプルを7つの異なる種類の難読化に分類することから始まります。次に、大きな言語モデル(LLM)を用いて、各サンプルからキートークンを抽出し、正規化し、標準化された高品質なコーパスを作成します。このキュレートされたデータセットを使用して、オープンソースの大規模モデル上で教師付き微調整(SFT)を行い、多種多様で難解なウェブシェルの悪意のあるペイロードの生成を可能にする。生成品質をさらに高めるため、PPOを適用し、悪意のあるコードサンプルを「調味」データとして扱い、良性のあるコードを強化学習中に「拒絶」データとして扱う。大規模実験により、RAWGはペイロードの多様性とエスケープの有効性の両方において、現在の最先端手法を著しく上回っていることが示された。

関連論文リスト

MOCHA: Are Code Language Models Robust Against Multi-Turn Malicious Coding Prompts? [12.213189431386478]
コード分解攻撃では、悪意のあるコーディングタスクが、安全フィルタを避けるために、一見良質なサブタスクに分解される。システム評価を容易にするために,単一ターンおよび複数ターンの悪意のあるプロンプトに対して,LLMの堅牢性を評価するために設計された大規模ベンチマークであるベンチマークネームを導入する。 MOCHAの微調整は、符号化能力を維持しながら拒絶率を改善し、重要なことは、外部の敵データセットの堅牢性を、追加の監督なしに最大32.4%の拒絶率で向上させる。
論文参考訳（メタデータ） (2025-07-25T18:11:10Z)
Decompiling Smart Contracts with a Large Language Model [51.49197239479266]
Etherscanの78,047,845のスマートコントラクトがデプロイされているにも関わらず(2025年5月26日現在)、わずか767,520 (1%)がオープンソースである。この不透明さは、オンチェーンスマートコントラクトバイトコードの自動意味解析を必要とする。バイトコードを可読でセマンティックに忠実なSolidityコードに変換する,先駆的な逆コンパイルパイプラインを導入する。
論文参考訳（メタデータ） (2025-06-24T13:42:59Z)
Detecting Hard-Coded Credentials in Software Repositories via LLMs [0.0]
ソフトウェア開発者は、パスワード、ジェネリックシークレット、プライベートキー、ソフトウェアリポジトリのジェネリックトークンなどの認証情報をハードコードすることが多い。これらの認証は、潜在的な敵によって悪用され、バックドア攻撃のような悪意ある攻撃を行うために攻撃面を生成する。最近の検出では、埋め込みモデルを用いてテキスト認証をベクトル化し、予測のために分類器に渡す。我々のモデルは、ベンチマークデータセットのF1測定値において、現在の最先端よりも13%優れています。
論文参考訳（メタデータ） (2025-06-16T04:33:48Z)
Enhancing Leakage Attacks on Searchable Symmetric Encryption Using LLM-Based Synthetic Data Generation [0.0]
Searchable Symmetric Encryption (SSE)は、暗号化されたデータに対する効率的な検索機能を提供する。 SSEスキームは、アクセスパターン、検索周波数、ボリューム情報を利用する漏洩攻撃に対して脆弱である。本稿では,大規模言語モデル(LLM),特にGPT-4の変種を利用して,エンロンメールの現実のデータセットに統計的・意味的に類似した合成文書を生成する手法を提案する。
論文参考訳（メタデータ） (2025-04-29T04:23:10Z)
ShadowCode: Towards (Automatic) External Prompt Injection Attack against Code LLMs [56.46702494338318]
本稿では,コード指向の大規模言語モデルに対する(自動)外部プロンプトインジェクションという,新たな攻撃パラダイムを紹介する。コードシミュレーションに基づいて誘導摂動を自動生成する,シンプルで効果的な方法であるShadowCodeを提案する。 3つの人気のあるプログラミング言語にまたがる31の脅威ケースを発生させるため、13の異なる悪意のある目標に対して本手法を評価した。
論文参考訳（メタデータ） (2024-07-12T10:59:32Z)
An LLM-Assisted Easy-to-Trigger Backdoor Attack on Code Completion Models: Injecting Disguised Vulnerabilities against Strong Detection [17.948513691133037]
我々は,コード補完モデルに基づくLLM支援バックドアアタックフレームワークであるCodeBreakerを紹介した。悪意のあるペイロードを最小限の変換でソースコードに直接統合することで、CodeBreakerは現在のセキュリティ対策に挑戦する。
論文参考訳（メタデータ） (2024-06-10T22:10:05Z)
Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文参考訳（メタデータ） (2024-05-28T19:16:17Z)
Double Backdoored: Converting Code Large Language Model Backdoors to Traditional Malware via Adversarial Instruction Tuning Attacks [15.531860128240385]
本研究では、バックドアをAI/MLドメインから従来のコンピュータマルウェアに移行するための新しいテクニックについて検討する。命令チューニングされたコードLLMのサイバーセキュリティ脆弱性を評価するためのフレームワークであるMalInstructCoderを提案する。我々は,3つの最先端の Code LLM を含むコード固有命令チューニングプロセスの活用性について,包括的調査を行う。
論文参考訳（メタデータ） (2024-04-29T10:14:58Z)
SABLE: Secure And Byzantine robust LEarning [9.455980760111498]
ホモモルフィック暗号化(HE)は、分散学習におけるプライバシを保護するための主要なセキュリティ対策として登場した。本稿では,最初の同型およびビザンチン頑健な分散学習アルゴリズムであるSABLEを紹介する。
論文参考訳（メタデータ） (2023-09-11T11:54:42Z)
PEOPL: Characterizing Privately Encoded Open Datasets with Public Labels [59.66777287810985]
プライバシとユーティリティのための情報理論スコアを導入し、不誠実なユーザの平均パフォーマンスを定量化する。次に、ランダムなディープニューラルネットワークの使用を動機付ける符号化スキームのファミリーを構築する際のプリミティブを理論的に特徴づける。
論文参考訳（メタデータ） (2023-03-31T18:03:53Z)
CodeLMSec Benchmark: Systematically Evaluating and Finding Security Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文参考訳（メタデータ） (2023-02-08T11:54:07Z)
Software Vulnerability Detection via Deep Learning over Disaggregated Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文参考訳（メタデータ） (2021-09-07T21:24:36Z)
Discriminator-Free Generative Adversarial Attack [87.71852388383242]
生成的ベースの敵攻撃は、この制限を取り除くことができる。 ASymmetric Saliency-based Auto-Encoder (SSAE) は摂動を生成する。 SSAEが生成した敵の例は、広く使われているモデルを崩壊させるだけでなく、優れた視覚的品質を実現する。
論文参考訳（メタデータ） (2021-07-20T01:55:21Z)
Prototype-supervised Adversarial Network for Targeted Attack of Deep Hashing [65.32148145602865]
ディープハッシュネットワークは、敵の例に弱い。 ProS-GAN(ProS-GAN)の提案我々の知る限りでは、これはディープハッシュネットワークを攻撃する最初の世代ベースの方法である。
論文参考訳（メタデータ） (2021-05-17T00:31:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。