論文の概要: Simplicity by Obfuscation: Evaluating LLM-Driven Code Transformation with Semantic Elasticity
- arxiv url: http://arxiv.org/abs/2504.14024v1
- Date: Fri, 18 Apr 2025 18:29:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 05:51:58.231689
- Title: Simplicity by Obfuscation: Evaluating LLM-Driven Code Transformation with Semantic Elasticity
- Title(参考訳): 難読化によるシンプルさ:意味的弾力性によるLCM駆動型コード変換の評価
- Authors: Lorenzo De Tomasi, Claudio Di Sipio, Antinisca Di Marco, Phuong T. Nguyen,
- Abstract要約: コードの難読化は、リバースエンジニアリングと知的財産の盗難を防ぐことを目的としている。
近年の大規模言語モデルの発展は、様々な分野における実践的応用の道を開いた。
この研究は、LLMがPythonのソースコードを難読化する能力について実証的研究を行った。
- 参考スコア(独自算出の注目度): 4.458584890504334
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Code obfuscation is the conversion of original source code into a functionally equivalent but less readable form, aiming to prevent reverse engineering and intellectual property theft. This is a challenging task since it is crucial to maintain functional correctness of the code while substantially disguising the input code. The recent development of large language models (LLMs) paves the way for practical applications in different domains, including software engineering. This work performs an empirical study on the ability of LLMs to obfuscate Python source code and introduces a metric (i.e., semantic elasticity) to measure the quality degree of obfuscated code. We experimented with 3 leading LLMs, i.e., Claude-3.5-Sonnet, Gemini-1.5, GPT-4-Turbo across 30 Python functions from diverse computational domains. Our findings reveal GPT-4-Turbo's remarkable effectiveness with few-shot prompting (81% pass rate versus 29% standard prompting), significantly outperforming both Gemini-1.5 (39%) and Claude-3.5-Sonnet (30%). Notably, we discovered a counter-intuitive "obfuscation by simplification" phenomenon where models consistently reduce rather than increase cyclomatic complexity. This study provides a methodological framework for evaluating AI-driven obfuscation while highlighting promising directions for leveraging LLMs in software security.
- Abstract(参考訳): コード難読化(Code obfuscation)とは、元のソースコードを、リバースエンジニアリングや知的財産の盗難を防ぐために、機能的に等価だが読みにくい形式に変換することである。
これは、入力コードを実質的に分解しながら、コードの機能的正確性を維持することが重要であるため、難しいタスクです。
近年の大規模言語モデル(LLM)の発展は、ソフトウェア工学を含む様々な分野における実践的応用の道を開いた。
この研究は、LLMがPythonのソースコードを難読化する能力について実証的研究を行い、難読化コードの質度を測定するための計量(意味的弾力性)を導入している。
計算領域の多様さから,3つの主要なLLM,すなわち Claude-3.5-Sonnet, Gemini-1.5, GPT-4-Turbo を用いて実験を行った。
その結果, GPT-4-Turbo は81%, 29%, Gemini-1.5 (39%) と Claude-3.5-Sonnet (30%) で有意に優れていた。
特に, モデルがサイクロマティックな複雑性を増大させるのではなく, 一貫して減少する反直感的な「単純化による難読化」現象が発見された。
本研究は,ソフトウェアセキュリティにおいてLLMを活用するための有望な方向性を強調しつつ,AI駆動型難読化を評価するための方法論的フレームワークを提供する。
関連論文リスト
- The Code Barrier: What LLMs Actually Understand? [7.407441962359689]
本研究では,言語モデルの意味理解能力を評価するために,コード難読化を構造化テストフレームワークとして利用する。
難読化の複雑さが増加するにつれて、統計的に顕著な性能低下が見られる。
本研究では,言語モデルにおけるコード理解を評価するための新しい評価手法を提案する。
論文 参考訳(メタデータ) (2025-04-14T14:11:26Z) - ObscuraCoder: Powering Efficient Code LM Pre-Training Via Obfuscation Grounding [60.37988508851391]
言語モデル(LM)は、コード記述ツールボックスのベースとなっている。
Code-LMの事前学習目標の変更を探求する研究は、データ効率の向上と構文とセマンティクスの相互接続性の向上を目的としており、顕著に不十分である。
本研究では,Code-LMが表面的な構文を超越し,事前学習したサンプルの効率を高めるために,難読化コードの基盤について検討する。
論文 参考訳(メタデータ) (2025-03-27T23:08:53Z) - Can LLMs Obfuscate Code? A Systematic Analysis of Large Language Models into Assembly Code Obfuscation [36.12009987721901]
マルウェアの作者は、マルウェアを検出しにくくするために、しばしばコードの難読化を用いる。
難読化されたコードを生成する既存のツールは、しばしば元のソースコードにアクセスする必要がある。
大規模言語モデルは、新しい難読化アセンブリコードを生成することができるか?
もしそうなら、これはアンチウイルスエンジンにリスクをもたらし、攻撃者が新しい難読化パターンを作るための柔軟性を高める可能性がある。
論文 参考訳(メタデータ) (2024-12-20T18:31:24Z) - Unseen Horizons: Unveiling the Real Capability of LLM Code Generation Beyond the Familiar [15.421030528350212]
我々は,大規模な言語モデルを評価するために,コード難読化ベースのベンチマークOBFUSEVALを構築した。
私たちは3段階の戦略を使って、記述やコード、コンテキストの依存関係を曖昧にしています。
その結果, 難燃後, 試験合格率の平均低下率は62.5%に達することがわかった。
論文 参考訳(メタデータ) (2024-12-11T05:31:39Z) - Large Language Models as Code Executors: An Exploratory Study [29.545321608864295]
本稿では,Large Language Models (LLM) をコードエグゼキュータとして探索する。
OpenAIのo1、GPT-4o、GPT-3.5、DeepSeek、Qwen-Coderなど、さまざまなLLMでこの実現可能性を調べています。
我々は,コードスニペットを行単位で処理し,弱いモデルの精度を平均7.22%向上させるIIP(Iterative Instruction Prompting)技術を導入する。
論文 参考訳(メタデータ) (2024-10-09T08:23:22Z) - Uncovering LLM-Generated Code: A Zero-Shot Synthetic Code Detector via Code Rewriting [78.48355455324688]
原符号とLLM書き換え版との類似性に基づく新しいゼロショット合成符号検出器を提案する。
以上の結果から,既存のSOTA合成コンテンツ検出装置よりも顕著な改善が得られた。
論文 参考訳(メタデータ) (2024-05-25T08:57:28Z) - Assured LLM-Based Software Engineering [51.003878077888686]
この記事では,2024年4月15日にポルトガルのリスボンで開催された International Workshop on Interpretability, Robustness, and Benchmarking in Neural Software Engineering で,Mark Harman 氏による基調講演の内容の概要を紹介する。
論文 参考訳(メタデータ) (2024-02-06T20:38:46Z) - ReGAL: Refactoring Programs to Discover Generalizable Abstractions [59.05769810380928]
Generalizable Abstraction Learning (ReGAL)は、再利用可能な関数のライブラリをコード化して学習する手法である。
ReGALによって発見された共有関数ライブラリは、プログラムが様々な領域で容易に予測できることを示している。
CodeLlama-13Bでは、ReGALはLOGOで11.5%、日付理解で26.1%、TextCraftで8.1%という絶対精度が向上し、3つのドメインのうち2つでGPT-3.5を上回った。
論文 参考訳(メタデータ) (2024-01-29T18:45:30Z) - Code Prompting Elicits Conditional Reasoning Abilities in Text+Code LLMs [65.2379940117181]
自然言語の問題をコードに変換する一連のプロンプトであるコードプロンプトを導入します。
コードプロンプトは複数のLLMに対して高速に向上することがわかった。
GPT 3.5を解析した結果,入力問題のコードフォーマッティングが性能向上に不可欠であることが判明した。
論文 参考訳(メタデータ) (2024-01-18T15:32:24Z) - LINC: A Neurosymbolic Approach for Logical Reasoning by Combining
Language Models with First-Order Logic Provers [60.009969929857704]
論理的推論は、科学、数学、社会に潜在的影響を与える可能性のある人工知能にとって重要なタスクである。
本研究では、LINCと呼ばれるモジュール型ニューロシンボリックプログラミングのようなタスクを再構成する。
我々は,FOLIOとProofWriterのバランスの取れたサブセットに対して,ほぼすべての実験条件下で,3つの異なるモデルに対して顕著な性能向上を観察した。
論文 参考訳(メタデータ) (2023-10-23T17:58:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。