論文の概要: Agentic SLMs: Hunting Down Test Smells
- arxiv url: http://arxiv.org/abs/2504.07277v1
- Date: Wed, 09 Apr 2025 21:12:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:22:32.570731
- Title: Agentic SLMs: Hunting Down Test Smells
- Title(参考訳): エージェントSLM: テストスメルの追跡
- Authors: Rian Melo, Pedro Simões, Rohit Gheyi, Marcelo d'Amorim, Márcio Ribeiro, Gustavo Soares, Eduardo Almeida, Elvys Soares,
- Abstract要約: テストの臭いはテストスイートの信頼性を損なう可能性があり、ソフトウェアのメンテナンスを妨げます。
本研究では, LLAMA 3.2 3B, GEMMA 2 9B, DEEPSEEK-R1 14B, PHI 4 14Bの評価を行った。
実世界のJavaプロジェクトから抽出された5つの一般的なテスト臭いの種類を150のインスタンスで1つ、2つ、4つのエージェントで調査する。
- 参考スコア(独自算出の注目度): 4.5274260758457645
- License:
- Abstract: Test smells can compromise the reliability of test suites and hinder software maintenance. Although several strategies exist for detecting test smells, few address their removal. Traditional methods often rely on static analysis or machine learning, requiring significant effort and expertise. This study evaluates LLAMA 3.2 3B, GEMMA 2 9B, DEEPSEEK-R1 14B, and PHI 4 14B - small, open language models - for automating the detection and refactoring of test smells through agent-based workflows. We explore workflows with one, two, and four agents across 150 instances of 5 common test smell types extracted from real-world Java projects. Unlike prior approaches, ours is easily extensible to new smells via natural language definitions and generalizes to Python and Golang. All models detected nearly all test smell instances (pass@5 of 96% with four agents), with PHI 4 14B achieving the highest refactoring accuracy (pass@5 of 75.3%). Analyses were computationally inexpensive and ran efficiently on a consumer-grade hardware. Notably, PHI 4 14B with four agents performed within 5% of proprietary models such as O1-MINI, O3-MINI-HIGH, and GEMINI 2.5 PRO EXPERIMENTAL using a single agent. Multi-agent setups outperformed single-agent ones in three out of five test smell types, highlighting their potential to improve software quality with minimal developer effort. For the Assertion Roulette smell, however, a single agent performed better. To assess practical relevance, we submitted 10 pull requests with PHI 4 14B - generated code to open-source projects. Five were merged, one was rejected, and four remain under review, demonstrating the approach's real-world applicability.
- Abstract(参考訳): テストの臭いはテストスイートの信頼性を損なう可能性があり、ソフトウェアのメンテナンスを妨げます。
検査の臭いを検出する方法はいくつか存在するが、除去に対処する戦略はほとんどない。
従来の手法は静的解析や機械学習に依存しており、かなりの努力と専門知識を必要とする。
LLAMA 3.2 3B, GEMMA 2 9B, DEEPSEEK-R1 14B, PHI 4 14B(小型でオープンな言語モデル)をエージェントベースのワークフローによるテスト臭いの検出とリファクタリングを自動化するために評価した。
現実世界のJavaプロジェクトから抽出された5つの一般的なテスト臭いタイプの150インスタンスに対して、1つ、2つ、4つのエージェントでワークフローを探索する。
従来のアプローチとは異なり、自然言語定義による新しい臭いに容易に拡張可能で、PythonやGolangに一般化されています。
全てのモデルでほぼ全てのテストの臭いが検出され(pass@5は4つのエージェントで96%)、PHI 4 14Bは最も高いリファクタリング精度(pass@5は75.3%)を達成した。
分析は計算コストが安価で、コンシューマグレードのハードウェア上で効率的に動作した。
特に、PHI 4 14Bは、O1-MINI、O3-MINI-HIGH、GEMINI 2.5 PRO EXPERIMENTALなどのプロプライエタリモデルの5%以内で、単一のエージェントを使用して実行された。
マルチエージェントのセットアップは、5つのテスト臭いタイプのうち3つでシングルエージェントのセットアップよりも優れており、開発者の最小限の努力でソフトウェア品質を改善する可能性を強調している。
しかし、Assertion Rouletteの匂いは、単一のエージェントがよりよく機能した。
実践的関連性を評価するため、PHI 4 14Bで生成された10のプルリクエストをオープンソースプロジェクトに送信しました。
5つが合併され、1つが却下され、4つが検討中であり、アプローチの現実的な適用性を示している。
関連論文リスト
- A Comparative Study on Reasoning Patterns of OpenAI's o1 Model [69.08287909042421]
OpenAIのo1モデルは、ほとんどのデータセットで最高のパフォーマンスを実現しています。
また、いくつかの推論ベンチマークについて詳細な分析を行う。
論文 参考訳(メタデータ) (2024-10-17T15:09:03Z) - Evaluating Large Language Models in Detecting Test Smells [1.5691664836504473]
テストの臭いの存在は、ソフトウェアの保守性と信頼性に悪影響を及ぼす可能性がある。
本研究では,テスト臭の自動検出におけるLarge Language Models (LLMs) の有効性を評価することを目的とする。
論文 参考訳(メタデータ) (2024-07-27T14:00:05Z) - $τ$-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains [43.43344028212623]
$tau$-benchは、ユーザと言語エージェント間の動的会話をエミュレートするベンチマークである。
我々は、会話の最後にデータベースの状態と注釈付きゴール状態を比較する、効率的で忠実な評価プロセスを採用する。
論文 参考訳(メタデータ) (2024-06-17T19:33:08Z) - SOEN-101: Code Generation by Emulating Software Process Models Using Large Language Model Agents [50.82665351100067]
FlowGenは、複数のLarge Language Model (LLM)エージェントに基づいたソフトウェアプロセスモデルをエミュレートするコード生成フレームワークである。
FlowGenScrumをHumanEval、HumanEval-ET、MBPP、MBPP-ETの4つのベンチマークで評価した。
論文 参考訳(メタデータ) (2024-03-23T14:04:48Z) - Theoretically Achieving Continuous Representation of Oriented Bounding Boxes [64.15627958879053]
本論文は,オブジェクト指向境界ボックス表現における不連続性を完全に解決しようとする試みである。
本研究では,既存の検出器に容易に統合可能なCOBB(Continuous OBB)という新しい表現法を提案する。
OOD評価のためのオープンソースのディープラーニングフレームワークJittorの検出ツールボックスJDetをベースとした,モジュール化されたベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-29T09:27:40Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - Towards Reliable AI Model Deployments: Multiple Input Mixup for
Out-of-Distribution Detection [4.985768723667418]
本稿では,OOD(Out-of-Distribution)検出問題の解法を提案する。
本手法は, 単一エポック微調整によるOOD検出性能の向上に有効である。
我々の方法は、ゼロからモデルを訓練する必要がなく、簡単に分類器にアタッチできる。
論文 参考訳(メタデータ) (2023-12-24T15:31:51Z) - MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。
各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。
我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z) - Machine Learning-Based Test Smell Detection [17.957877801382413]
テストの匂いは、テストケースを開発する際に採用される最適な設計選択の症状である。
そこで本研究では,機械学習による新しいテスト臭検出手法の設計と実験を行い,4つのテスト臭検出手法を提案する。
論文 参考訳(メタデータ) (2022-08-16T07:33:15Z) - Disentangle Your Dense Object Detector [82.22771433419727]
深層学習に基づく高密度物体検出器はここ数年で大きな成功を収め、ビデオ理解などのマルチメディアアプリケーションにも応用されてきた。
しかし、現在の高密度検出器の訓練パイプラインは、保持できない多くの接続に妥協されている。
そこで本研究では, 簡易かつ効果的な遠心分離機構を設計し, 現在の最先端検出器に統合するDED(Disentangled Dense Object Detector)を提案する。
論文 参考訳(メタデータ) (2021-07-07T00:52:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。