論文の概要: DCE-LLM: Dead Code Elimination with Large Language Models
- arxiv url: http://arxiv.org/abs/2506.11076v1
- Date: Wed, 04 Jun 2025 03:41:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.552998
- Title: DCE-LLM: Dead Code Elimination with Large Language Models
- Title(参考訳): DCE-LLM: 大規模言語モデルによるデッドコード排除
- Authors: Minyu Chen, Guoqiang Li, Ling-I Wu, Ruibang Liu,
- Abstract要約: 我々は、小さなCodeBERTモデルを用いて、デッドコードの自動除去のためのフレームワークであるDCE-LLMを提案する。
LLMは、大規模な注釈付きデッドコードデータセットに基づいて微調整された判断と説明を生成する。
実験の結果、DCE-LLMは未使用のコードに対して94%以上のF1スコアを獲得し、GPT-4oを30%以上上回った。
- 参考スコア(独自算出の注目度): 2.4066228349075303
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dead code introduces several challenges in software development, such as increased binary size and maintenance difficulties. It can also obscure logical errors and be exploited for obfuscation in malware. For LLM-based code-related tasks, dead code introduces vulnerabilities that can mislead these models, raising security concerns. Although modern compilers and IDEs offer dead code elimination, sophisticated patterns can bypass these tools. A universal approach that includes classification, location, explanation, and correction is needed, yet current tools often require significant manual effort. We present DCE-LLM, a framework for automated dead code elimination using a small CodeBERT model with an attribution-based line selector to efficiently locate suspect code. LLMs then generate judgments and explanations, fine-tuned on a large-scale, annotated dead code dataset to provide detailed explanations and patches. DCE-LLM outperforms existing tools, with advanced unreachability detection, automated correction, and support for multiple programming languages. Experimental results show DCE-LLM achieves over 94% F1 scores for unused and unreachable code, significantly surpassing GPT-4o by 30%.
- Abstract(参考訳): デッドコードは、バイナリサイズの増加やメンテナンスの難しさなど、ソフトウェア開発におけるいくつかの課題を導入します。
また、論理的な誤りを曖昧にし、マルウェアの難読化のために悪用することもできる。
LLMベースのコード関連タスクでは、デッドコードはこれらのモデルを誤解させる可能性のある脆弱性を導入し、セキュリティ上の懸念を提起する。
現代のコンパイラとIDEはデッドコード排除を提供するが、洗練されたパターンはこれらのツールをバイパスすることができる。
分類、位置、説明、修正を含む普遍的なアプローチが必要であるが、現在のツールはしばしばかなりの手作業を必要とする。
DCE-LLMは,アトリビューションベースの行セレクタを備えた小さなCodeBERTモデルを用いて,疑似コードの効率よく検出するデッドコード除去フレームワークである。
LLMはその後、判断と説明を生成し、大規模な注釈付きデッドコードデータセットを微調整して、詳細な説明とパッチを提供する。
DCE-LLMは既存のツールよりも優れており、高度な不到達検出、自動修正、複数のプログラミング言語のサポートがある。
実験の結果、DCE-LLMは未使用および未取得のコードに対して94%以上のF1スコアを獲得し、GPT-4oを30%以上上回った。
関連論文リスト
- Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - HexaCoder: Secure Code Generation via Oracle-Guided Synthetic Training Data [60.75578581719921]
大規模言語モデル(LLM)は、自動コード生成に大きな可能性を示している。
最近の研究は、多くのLLM生成コードが深刻なセキュリティ脆弱性を含んでいることを強調している。
我々は,LLMがセキュアなコードを生成する能力を高めるための新しいアプローチであるHexaCoderを紹介する。
論文 参考訳(メタデータ) (2024-09-10T12:01:43Z) - No Man is an Island: Towards Fully Automatic Programming by Code Search, Code Generation and Program Repair [9.562123938545522]
ツールネームは、様々なコード検索、生成、修復ツールを統合することができ、これら3つの研究領域を初めて組み合わせることができる。
例えば、CodeLlamaは62.53%の改善で267のプログラミング問題を解決するのに役立ちます。
論文 参考訳(メタデータ) (2024-09-05T06:24:29Z) - Impact of Large Language Models of Code on Fault Localization [2.936007114555107]
本稿では,FLタスクのための大規模言語モデルの微調整のための,単純だが効果的なシーケンス生成手法を提案する。
具体的には、FLタスク用の代表エンコーダ、エンコーダデコーダ、デコーダベースの13のLLMCを微調整する。
実験結果から, LLMCは50.6%, 64.2%, 72.3%の誤差位置を検出できた。
論文 参考訳(メタデータ) (2024-08-19T02:36:07Z) - M2CVD: Enhancing Vulnerability Semantic through Multi-Model Collaboration for Code Vulnerability Detection [52.4455893010468]
大規模言語モデル(LLM)は、コード理解において強力な能力を持つが、微調整コストとセマンティックアライメントの問題により、プロジェクト固有の最適化が制限される。
CodeBERTのようなコードモデルは微調整が容易であるが、複雑なコード言語から脆弱性のセマンティクスを学ぶことはしばしば困難である。
本稿では,M2CVD(Multi-Model Collaborative Vulnerability Detection)手法を提案する。
論文 参考訳(メタデータ) (2024-06-10T00:05:49Z) - DeepCode AI Fix: Fixing Security Vulnerabilities with Large Language
Models [3.1690235522182104]
大規模言語モデル(LLM)は、様々なプログラミングタスクの解決にますます使われている。
長距離コード関係を学習するモデルを必要とするため,タスクは困難であることを示す。
本稿では,LLMのクエリと微調整のための新しいアプローチにより,これらの課題に対処する手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T18:35:40Z) - A New Era in Software Security: Towards Self-Healing Software via Large Language Models and Formal Verification [8.733354577147093]
本稿では,Large Language Models(LLM)とFormal Verification戦略を組み合わせたソフトウェア脆弱性の自動修復手法を提案する。
我々は、ESBMC-AIフレームワークを概念実証として、よく認識され、業界に受け入れられたSMTベースのコンテキスト境界モデルチェッカー(ESBMC)と事前訓練されたトランスフォーマーモデルを活用する。
本研究は,バッファオーバーフローや演算オーバーフロー,ポインタ参照障害などの問題を高精度に検出および修正するESBMC-AIの機能を示すものである。
論文 参考訳(メタデータ) (2023-05-24T05:54:10Z) - CodeT5+: Open Code Large Language Models for Code Understanding and
Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。
CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。
我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文 参考訳(メタデータ) (2023-05-13T14:23:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。