論文の概要: Benchmarking LLM for Code Smells Detection: OpenAI GPT-4.0 vs DeepSeek-V3
- arxiv url: http://arxiv.org/abs/2504.16027v1
- Date: Tue, 22 Apr 2025 16:44:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 17:17:59.729533
- Title: Benchmarking LLM for Code Smells Detection: OpenAI GPT-4.0 vs DeepSeek-V3
- Title(参考訳): コードスモール検出のためのLLMベンチマーク: OpenAI GPT-4.0 vs DeepSeek-V3
- Authors: Ahmed R. Sadik, Siddhata Govind,
- Abstract要約: 本研究では,この問題に対処するための構造的方法論と評価行列を提案する。
データセットは、Java、Python、JavaScript、C++の4つの著名なプログラミング言語にまたがっている。
我々は、精度、リコール、F1スコアを評価指標として、OpenAI GPT 4.0とDeepSeek-V3の2つの状態をベンチマークする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Determining the most effective Large Language Model for code smell detection presents a complex challenge. This study introduces a structured methodology and evaluation matrix to tackle this issue, leveraging a curated dataset of code samples consistently annotated with known smells. The dataset spans four prominent programming languages Java, Python, JavaScript, and C++; allowing for cross language comparison. We benchmark two state of the art LLMs, OpenAI GPT 4.0 and DeepSeek-V3, using precision, recall, and F1 score as evaluation metrics. Our analysis covers three levels of detail: overall performance, category level performance, and individual code smell type performance. Additionally, we explore cost effectiveness by comparing the token based detection approach of GPT 4.0 with the pattern-matching techniques employed by DeepSeek V3. The study also includes a cost analysis relative to traditional static analysis tools such as SonarQube. The findings offer valuable guidance for practitioners in selecting an efficient, cost effective solution for automated code smell detection
- Abstract(参考訳): コードの臭い検出に最も効果的なLarge Language Modelを決定することは、複雑な課題である。
本研究は, この問題を解決するための構造化手法と評価行列を導入し, 既知の臭いに一貫してアノテートされたコードサンプルのキュレートされたデータセットを活用する。
データセットは、Java、Python、JavaScript、C++の4つの著名なプログラミング言語にまたがっている。
我々は、精度、リコール、F1スコアを評価指標として、2つの最先端LCM、OpenAI GPT 4.0とDeepSeek-V3をベンチマークした。
私たちの分析では、全体的なパフォーマンス、カテゴリレベルのパフォーマンス、コードの臭いの種類によるパフォーマンスの3つのレベルを網羅しています。
さらに,GPT 4.0のトークンベースの検出手法とDeepSeek V3のパターンマッチング技術との比較により,コスト効果を検討した。
この研究には、SonarQubeのような従来の静的解析ツールと比較してコスト分析も含まれている。
この発見は、コード臭いの自動検出のための効率的で費用対効果の高いソリューションを選択する実践者にとって貴重なガイダンスを提供する。
関連論文リスト
- Towards Automated Detection of Inline Code Comment Smells [2.2134505920972547]
機械学習(ML)モデルと大規模言語モデル(LLM)を用いて,インラインコードコメントの臭いを自動的に検出し,分類することを目指している。
並行して、強化データセット上で7つの異なる機械学習アルゴリズムを訓練し、その分類性能をGPT 4と比較した。
モデルの性能、特にランサムフォレストは66%の精度を達成しており、この領域における将来の研究の確かなベースラインを確立している。
論文 参考訳(メタデータ) (2025-04-26T15:38:14Z) - Rethinking End-to-End 2D to 3D Scene Segmentation in Gaussian Splatting [86.15347226865826]
We design an new end-to-end object-aware lifting approach, called Unified-Lift。
コントラスト損失を用いて学習したガウスレベルの機能を各ガウス点に拡張し、インスタンス情報をエンコードする。
LERF-Masked、Replica、Messy Roomsの3つのベンチマークで実験を行った。
論文 参考訳(メタデータ) (2025-03-18T08:42:23Z) - Leveraging Large Language Models to Detect npm Malicious Packages [4.479741014073169]
本研究では,Large Language Models (LLMs) の有効性を実証的に検討した。
我々は、悪意のあるコードを検出する悪意のあるコードレビューワークフローであるSocketAIを紹介する。
論文 参考訳(メタデータ) (2024-03-18T19:10:12Z) - LLMDFA: Analyzing Dataflow in Code with Large Language Models [8.92611389987991]
本稿では,コンパイル不要でカスタマイズ可能なデータフロー解析フレームワークLLMDFAを提案する。
問題をいくつかのサブタスクに分解し、一連の新しい戦略を導入する。
LLMDFAは平均87.10%の精度と80.77%のリコールを達成し、F1スコアを最大0.35に向上させた。
論文 参考訳(メタデータ) (2024-02-16T15:21:35Z) - Let's Discover More API Relations: A Large Language Model-based AI Chain
for Unsupervised API Relation Inference [19.05884373802318]
本稿では,大規模言語モデル(LLM)をAPI関係推論のニューラルネットワーク基盤として活用することを提案する。
このアプローチは、LLMを知識ベースとして事前訓練するために使用されるWeb全体を活用し、入力テキストのコンテキストや複雑さに敏感である。
我々は3つのデータセットで平均F1値0.76を達成し、最先端のF1値0.40よりもかなり高い値を得た。
論文 参考訳(メタデータ) (2023-11-02T14:25:00Z) - Zero-Shot Detection of Machine-Generated Codes [83.0342513054389]
本研究は,LLMの生成したコードを検出するためのトレーニング不要な手法を提案する。
既存のトレーニングベースまたはゼロショットテキスト検出装置は、コード検出に効果がないことがわかった。
本手法は,リビジョン攻撃に対する堅牢性を示し,Javaコードによく適応する。
論文 参考訳(メタデータ) (2023-10-08T10:08:21Z) - DST-Det: Simple Dynamic Self-Training for Open-Vocabulary Object Detection [72.25697820290502]
この研究は、ゼロショット分類によって潜在的に新しいクラスを特定するための単純かつ効率的な戦略を導入する。
このアプローチは、アノテーションやデータセット、再学習を必要とせずに、新しいクラスのリコールと精度を高めるセルフトレーニング戦略として言及する。
LVIS、V3Det、COCOを含む3つのデータセットに対する実証的な評価は、ベースラインのパフォーマンスを大幅に改善したことを示している。
論文 参考訳(メタデータ) (2023-10-02T17:52:24Z) - V-DETR: DETR with Vertex Relative Position Encoding for 3D Object
Detection [73.37781484123536]
DETRフレームワークを用いた点雲のための高性能な3次元物体検出器を提案する。
限界に対処するため,新しい3次元相対位置(3DV-RPE)法を提案する。
挑戦的なScanNetV2ベンチマークで例外的な結果を示す。
論文 参考訳(メタデータ) (2023-08-08T17:14:14Z) - KECOR: Kernel Coding Rate Maximization for Active 3D Object Detection [48.66703222700795]
我々は、ラベルの取得に最も有用なポイントクラウドを特定するために、新しいカーネル戦略を利用する。
1段目(SECOND)と2段目(SECOND)の両方に対応するため、アノテーションに選択した境界ボックスの総数と検出性能のトレードオフをよく組み込んだ分類エントロピー接点を組み込んだ。
その結果,ボックスレベルのアノテーションのコストは約44%,計算時間は26%削減された。
論文 参考訳(メタデータ) (2023-07-16T04:27:03Z) - DeepfakeBench: A Comprehensive Benchmark of Deepfake Detection [55.70982767084996]
ディープフェイク検出の分野で見落とされがちな課題は、標準化され、統一され、包括的なベンチマークがないことである。
DeepfakeBenchと呼ばれる,3つの重要なコントリビューションを提供するディープフェイク検出のための,最初の包括的なベンチマークを提示する。
DeepfakeBenchには15の最先端検出方法、9CLデータセット、一連のDeepfake検出評価プロトコルと分析ツール、包括的な評価ツールが含まれている。
論文 参考訳(メタデータ) (2023-07-04T01:34:41Z) - On the Importance of Building High-quality Training Datasets for Neural
Code Search [15.557818317497397]
本稿では,ルールベース構文フィルタとモデルベースセマンティックフィルタという,次の2つのフィルタからなるデータクリーニングフレームワークを提案する。
2つの広く使われているコード検索モデルと3つの手動アノテーション付きコード検索ベンチマークにおけるフレームワークの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-14T12:02:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。