論文の概要: Are We SOLID Yet? An Empirical Study on Prompting LLMs to Detect Design Principle Violations
- arxiv url: http://arxiv.org/abs/2509.03093v1
- Date: Wed, 03 Sep 2025 07:48:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.448761
- Title: Are We SOLID Yet? An Empirical Study on Prompting LLMs to Detect Design Principle Violations
- Title(参考訳): 私たちはまだSOLIDか? 設計原則違反を検知するLDMの試行的研究
- Authors: Fatih Pehlivan, Arçin Ülkü Ergüzen, Sahand Moslemi Yengejeh, Mayasah Lami, Anil Koyuncu,
- Abstract要約: 本稿では,4つのLLM-CodeLlama,DeepSeekCoder,QwenCoder,GPT-4o Miniのベンチマークを示す。
我々は、確立されたゼロショット、少数ショット、およびチェーンオブ思考技術にインスパイアされた4つの異なるプロンプト戦略をテストする。
迅速な戦略は劇的な影響を持つが、単一の戦略が普遍的に最善であることを示す。
- 参考スコア(独自算出の注目度): 0.17464576727343348
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Traditional static analysis methods struggle to detect semantic design flaws, such as violations of the SOLID principles, which require a strong understanding of object-oriented design patterns and principles. Existing solutions typically focus on individual SOLID principles or specific programming languages, leaving a gap in the ability to detect violations across all five principles in multi-language codebases. This paper presents a new approach: a methodology that leverages tailored prompt engineering to assess LLMs on their ability to detect SOLID violations across multiple languages. We present a benchmark of four leading LLMs-CodeLlama, DeepSeekCoder, QwenCoder, and GPT-4o Mini-on their ability to detect violations of all five SOLID principles. For this evaluation, we construct a new benchmark dataset of 240 manually validated code examples. Using this dataset, we test four distinct prompt strategies inspired by established zero-shot, few-shot, and chain-of-thought techniques to systematically measure their impact on detection accuracy. Our emerging results reveal a stark hierarchy among models, with GPT-4o Mini decisively outperforming others, yet even struggles with challenging principles like DIP. Crucially, we show that prompt strategy has a dramatic impact, but no single strategy is universally best; for instance, a deliberative ENSEMBLE prompt excels at OCP detection while a hint-based EXAMPLE prompt is superior for DIP violations. Across all experiments, detection accuracy is heavily influenced by language characteristics and degrades sharply with increasing code complexity. These initial findings demonstrate that effective, AI-driven design analysis requires not a single best model, but a tailored approach that matches the right model and prompt to the specific design context, highlighting the potential of LLMs to support maintainability through AI-assisted code analysis.
- Abstract(参考訳): 従来の静的解析手法は、オブジェクト指向の設計パターンや原則の強い理解を必要とするSOLID原則違反など、セマンティックデザインの欠陥を検出するのに苦労している。
既存のソリューションは一般的に個々のSOLID原則や特定のプログラミング言語に重点を置いており、多言語コードベースの5つの原則にまたがる違反を検出する能力のギャップを残している。
本稿では,複数の言語にまたがるSOLID違反を検出する能力に基づいて,LLMの評価を行うために,調整されたプロンプトエンジニアリングを活用する手法を提案する。
我々は,5つのSOLID原則の違反を検出する能力について,LLMs-CodeLlama,DeepSeekCoder,QwenCoder,GPT-4o Miniの4つの主要なベンチマークを示す。
この評価のために,240のコード例を手作業で検証した新しいベンチマークデータセットを構築した。
このデータセットを用いて、確立されたゼロショット、少数ショット、チェーンオブ思想のテクニックに着想を得た4つの異なるプロンプト戦略をテストし、検出精度に対するそれらの影響を体系的に測定する。
GPT-4o Miniは他より圧倒的に優れていますが、DIPのような挑戦的な原則に苦戦しています。
重要なことは、プロンプト戦略は劇的な影響を持つが、単一の戦略が普遍的に最適であるわけではないことを示し、例えば、検討的なENSEMBLEプロンプトはOCP検出において優れ、ヒントベースのEXAMPLEプロンプトはDIP違反に対して優れている。
あらゆる実験において、検出精度は言語の特徴に大きく影響され、コードの複雑さが増すにつれて著しく低下する。
これらの初期の発見は、効果的なAI駆動設計分析は、単一のベストモデルではなく、適切なモデルにマッチし、特定の設計コンテキストにプロンプトする調整されたアプローチを必要とし、AIアシストコード分析を通じて保守性をサポートするLLMの可能性を強調している。
関連論文リスト
- Hallucination in LLM-Based Code Generation: An Automotive Case Study [3.2821049498759094]
本稿では,自動車領域に着目したコード生成の文脈における幻覚現象について検討する。
GPT-4.1、Codex、GPT-4oでは、構文違反、不正な参照エラー、API知識の衝突の頻度が高い。
論文 参考訳(メタデータ) (2025-08-15T06:46:50Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - SAEL: Leveraging Large Language Models with Adaptive Mixture-of-Experts for Smart Contract Vulnerability Detection [14.581402965011117]
スマートコントラクト脆弱性検出のためのLLMベースのフレームワークであるSAELを提案する。
まず、脆弱性を特定し、説明を生成するためにLSMを誘導するプロンプトを設計する。
次に、CodeT5とT5のプロンプトチューニングをコントラクトコードと説明処理に適用し、タスク固有のパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2025-07-30T04:28:00Z) - Sample-agnostic Adversarial Perturbation for Vision-Language Pre-training Models [7.350203999073509]
AIセキュリティに関する最近の研究は、画像やテキストの微妙で意図的に設計された摂動に対するビジョンランゲージ事前学習モデルの脆弱性を強調している。
私たちの知る限りでは、どんな画像にも当てはまる普遍的でサンプルに依存しない摂動の生成を探索する、マルチモーダルな決定境界による最初の研究である。
論文 参考訳(メタデータ) (2024-08-06T06:25:39Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。
従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。
さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文 参考訳(メタデータ) (2024-06-24T15:16:45Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - An Empirical Study of Automated Vulnerability Localization with Large Language Models [21.84971967029474]
大規模言語モデル(LLM)は、様々な領域において可能性を示しているが、脆弱性のローカライゼーションにおけるその有効性は未解明のままである。
本調査では,ChatGPTや各種オープンソースモデルなど,コード解析に適した10以上のLLMを対象とする。
ゼロショット学習,ワンショット学習,識別的微調整,生成的微調整の4つのパラダイムを用いて,これらのLCMの有効性を検討する。
論文 参考訳(メタデータ) (2024-03-30T08:42:10Z) - An Insight into Security Code Review with LLMs: Capabilities, Obstacles, and Influential Factors [9.309745288471374]
セキュリティコードレビューは時間と労力を要するプロセスです。
既存のセキュリティ分析ツールは、一般化の貧弱、偽陽性率の高い、粗い検出粒度に悩まされている。
大きな言語モデル(LLM)は、これらの課題に対処するための有望な候補と考えられている。
論文 参考訳(メタデータ) (2024-01-29T17:13:44Z) - Re-Reading Improves Reasoning in Large Language Models [87.46256176508376]
既成のLarge Language Models (LLM) の推論能力を高めるため, 単純で汎用的で効果的なプロンプト手法であるRe2を導入する。
CoT (Chain-of-Thought) など、ほとんどの思考を刺激する手法とは異なり、Re2 は質問を2回処理することで入力に焦点を移し、理解プロセスを強化する。
提案手法の有効性と汎用性を検証するため,14のデータセットにまたがる広範囲な推論ベンチマークでRe2を評価した。
論文 参考訳(メタデータ) (2023-09-12T14:36:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。