Fugu-MT 論文翻訳(概要): JsDeObsBench: Measuring and Benchmarking LLMs for JavaScript Deobfuscation

論文の概要: JsDeObsBench: Measuring and Benchmarking LLMs for JavaScript Deobfuscation

arxiv url: http://arxiv.org/abs/2506.20170v1
Date: Wed, 25 Jun 2025 06:50:13 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-26 21:00:42.633207
Title: JsDeObsBench: Measuring and Benchmarking LLMs for JavaScript Deobfuscation
Title（参考訳）: JsDeObsBench: JavaScriptの難読化のためのLLMの測定とベンチマーク
Authors: Guoqiang Chen, Xin Jin, Zhiqiang Lin,
Abstract要約: 大規模言語モデル(LLM)は、最近、難読化プロセスを自動化することを約束している。 JsDeObsBench は JS の難読化の文脈において LLM の有効性を厳格に評価するために設計されたベンチマークである。
参考スコア（独自算出の注目度）: 34.88009582470047
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deobfuscating JavaScript (JS) code poses a significant challenge in web security, particularly as obfuscation techniques are frequently used to conceal malicious activities within scripts. While Large Language Models (LLMs) have recently shown promise in automating the deobfuscation process, transforming detection and mitigation strategies against these obfuscated threats, a systematic benchmark to quantify their effectiveness and limitations has been notably absent. To address this gap, we present JsDeObsBench, a dedicated benchmark designed to rigorously evaluate the effectiveness of LLMs in the context of JS deobfuscation. We detail our benchmarking methodology, which includes a wide range of obfuscation techniques ranging from basic variable renaming to sophisticated structure transformations, providing a robust framework for assessing LLM performance in real-world scenarios. Our extensive experimental analysis investigates the proficiency of cutting-edge LLMs, e.g., GPT-4o, Mixtral, Llama, and DeepSeek-Coder, revealing superior performance in code simplification despite challenges in maintaining syntax accuracy and execution reliability compared to baseline methods. We further evaluate the deobfuscation of JS malware to exhibit the potential of LLMs in security scenarios. The findings highlight the utility of LLMs in deobfuscation applications and pinpoint crucial areas for further improvement.
Abstract（参考訳）: Deobfuscating JavaScript(JS)コードは、特に難読化テクニックがスクリプト内の悪意あるアクティビティを隠蔽するために頻繁に使用されるため、Webセキュリティにおいて重大な課題となる。大規模な言語モデル(LLM)は、最近、難読化プロセスの自動化、これらの難読化脅威に対する検出と緩和戦略の転換を約束している一方で、それらの有効性と制限を定量化する体系的なベンチマークは、特に欠落している。 JsDeObsBench は JS の難読化の文脈において LLM の有効性を厳格に評価する専用ベンチマークである。我々は,基本的な変数リネームから高度な構造変換に至るまで,幅広い難読化手法を含むベンチマーク手法を詳述し,実世界のシナリオにおけるLCM性能を評価するための堅牢なフレームワークを提供する。本研究では,LLM,GPT-4o,Mixtral,Llama,DeepSeek-Coderなどの最先端LLMの習熟度を検討した。さらに,セキュリティシナリオにおける LLM の可能性を示すために,JS マルウェアの難読化を評価する。以上の結果から, 難治化応用におけるLCMの有用性と, さらなる改善に向けた要点が浮かび上がった。

関連論文リスト

Phishing Detection in the Gen-AI Era: Quantized LLMs vs Classical Models [1.4999444543328293]
フィッシング攻撃はますます洗練され、高精度と計算効率のバランスをとる検知システムの必要性が強調されている。本稿では、フィッシング検出のための従来の機械学習(ML)、ディープラーニング(DL)、および量子化された小パラメータ大規模言語モデル(LLM)の比較評価を行う。現在,LLMはML法やDL法に比べて精度が低いが,文脈に基づく微妙なフィッシング手法を識別する可能性が強い。
論文参考訳（メタデータ） (2025-07-10T04:01:52Z)
Guiding AI to Fix Its Own Flaws: An Empirical Study on LLM-Driven Secure Code Generation [16.29310628754089]
大規模言語モデル(LLM)は、コードの自動生成のための強力なツールになっている。 LLMは、しばしば重要なセキュリティプラクティスを見落とし、安全でないコードを生成する。本稿では、安全性の低いコードを生成するための固有の傾向、自己生成する脆弱性ヒントによってガイドされた場合にセキュアなコードを生成する能力、フィードバックレベルが異なる場合に脆弱性を修復する効果について検討する。
論文参考訳（メタデータ） (2025-06-28T23:24:33Z)
ObscuraCoder: Powering Efficient Code LM Pre-Training Via Obfuscation Grounding [60.37988508851391]
言語モデル(LM)は、コード記述ツールボックスのベースとなっている。 Code-LMの事前学習目標の変更を探求する研究は、データ効率の向上と構文とセマンティクスの相互接続性の向上を目的としており、顕著に不十分である。本研究では,Code-LMが表面的な構文を超越し,事前学習したサンプルの効率を高めるために,難読化コードの基盤について検討する。
論文参考訳（メタデータ） (2025-03-27T23:08:53Z)
What You See Is Not Always What You Get: An Empirical Study of Code Comprehension by Large Language Models [0.5735035463793009]
ソースコードに隠された文字操作がLLMの動作を誤認し,人間のレビュアーには検出不能なままにしておくという,大きな言語モデル(LLM)の攻撃に対する脆弱性について検討する。これらの攻撃には、コードリオーダー、見えないコーディング文字、コード削除、コードホモグリフが含まれる。以上の結果より,LLMは摂動の大きさと性能に異なる負の相関性を示す一方,LLMは認識不能なコードキャラクタ攻撃に対する感受性を示すことが明らかとなった。
論文参考訳（メタデータ） (2024-12-11T04:52:41Z)
Evaluating and Improving the Robustness of Security Attack Detectors Generated by LLMs [6.936401700600395]
大規模言語モデル(LLM)は、セキュリティ要件を実装するアタック検出器などの関数を生成するために、ソフトウェア開発でますます使われている。これは、LLMが既存の攻撃に関する知識を欠いていることと、生成されたコードが実際の使用シナリオで評価されていないことによる可能性が高い。本稿では,LLMパイプラインにRAG(Retrieval Augmented Generation)とSelf-Rankingを統合した新しいアプローチを提案する。
論文参考訳（メタデータ） (2024-11-27T10:48:37Z)
VulnLLMEval: A Framework for Evaluating Large Language Models in Software Vulnerability Detection and Patching [0.9208007322096533]
大きな言語モデル(LLM)は、コード翻訳のようなタスクにおいて有望であることを示している。本稿では,C コードの脆弱性を特定し,パッチする際の LLM の性能を評価するためのフレームワーク VulnLLMEval を紹介する。私たちの研究には、Linuxカーネルから抽出された307の現実世界の脆弱性が含まれている。
論文参考訳（メタデータ） (2024-09-16T22:00:20Z)
Exploring LLMs for Malware Detection: Review, Framework Design, and Countermeasure Approaches [0.24578723416255752]
マルウェアの作成と拡散にLarge Language Modelsの利用が増加していることは、サイバーセキュリティの重大な課題となっている。本稿では,LSMと各種ソースからのマルウェア検出におけるその役割について概説する。マルウェアハニーポット、テキストベースの脅威の識別、悪意のある意図を検出するためのコード解析、マルウェアの傾向分析、非標準的な偽装マルウェアの検出。
論文参考訳（メタデータ） (2024-09-11T19:33:44Z)
Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。 11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文参考訳（メタデータ） (2024-07-23T15:31:26Z)
SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文参考訳（メタデータ） (2024-06-20T17:56:07Z)
Optimization-based Prompt Injection Attack to LLM-as-a-Judge [78.20257854455562]
LLM-as-a-Judgeは、大きな言語モデル(LLM)を使用して、ある質問に対する候補セットから最適な応答を選択する。 LLM-as-a-Judgeに対する最適化に基づくプロンプトインジェクション攻撃であるJiceDeceiverを提案する。評価の結果,JiceDeceiveは既存のプロンプトインジェクション攻撃よりも効果的であることがわかった。
論文参考訳（メタデータ） (2024-03-26T13:58:00Z)
Can Large Language Models be Trusted for Evaluation? Scalable Meta-Evaluation of LLMs as Evaluators via Agent Debate [74.06294042304415]
エージェント・ディベート支援型メタ評価フレームワークであるScaleEvalを提案する。フレームワークのコードをGitHubで公開しています。
論文参考訳（メタデータ） (2024-01-30T07:03:32Z)
Understanding the Effectiveness of Large Language Models in Detecting Security Vulnerabilities [12.82645410161464]
5つの異なるセキュリティデータセットから5,000のコードサンプルに対して、16の事前学習された大規模言語モデルの有効性を評価する。全体として、LSMは脆弱性の検出において最も穏やかな効果を示し、データセットの平均精度は62.8%、F1スコアは0.71である。ステップバイステップ分析を含む高度なプロンプト戦略は、F1スコア(平均0.18まで)で実世界のデータセット上でのLLMのパフォーマンスを著しく向上させることがわかった。
論文参考訳（メタデータ） (2023-11-16T13:17:20Z)
Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。 1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文参考訳（メタデータ） (2023-05-31T10:08:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。