論文の概要: Agentic SLMs: Hunting Down Test Smells
- arxiv url: http://arxiv.org/abs/2504.07277v1
- Date: Wed, 09 Apr 2025 21:12:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-19 00:55:13.593927
- Title: Agentic SLMs: Hunting Down Test Smells
- Title(参考訳): エージェントSLM: テストスメルの追跡
- Authors: Rian Melo, Pedro Simões, Rohit Gheyi, Marcelo d'Amorim, Márcio Ribeiro, Gustavo Soares, Eduardo Almeida, Elvys Soares,
- Abstract要約: テストの臭いはテストスイートの信頼性を損なう可能性があり、ソフトウェアのメンテナンスを妨げます。
本研究では, LLAMA 3.2 3B, GEMMA 2 9B, DEEPSEEK-R1 14B, PHI 4 14Bの評価を行った。
実世界のJavaプロジェクトから抽出された5つの一般的なテスト臭いの種類を150のインスタンスで1つ、2つ、4つのエージェントで調査する。
- 参考スコア(独自算出の注目度): 4.5274260758457645
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test smells can compromise the reliability of test suites and hinder software maintenance. Although several strategies exist for detecting test smells, few address their removal. Traditional methods often rely on static analysis or machine learning, requiring significant effort and expertise. This study evaluates LLAMA 3.2 3B, GEMMA 2 9B, DEEPSEEK-R1 14B, and PHI 4 14B - small, open language models - for automating the detection and refactoring of test smells through agent-based workflows. We explore workflows with one, two, and four agents across 150 instances of 5 common test smell types extracted from real-world Java projects. Unlike prior approaches, ours is easily extensible to new smells via natural language definitions and generalizes to Python and Golang. All models detected nearly all test smell instances (pass@5 of 96% with four agents), with PHI 4 14B achieving the highest refactoring accuracy (pass@5 of 75.3%). Analyses were computationally inexpensive and ran efficiently on a consumer-grade hardware. Notably, PHI 4 14B with four agents performed within 5% of proprietary models such as O1-MINI, O3-MINI-HIGH, and GEMINI 2.5 PRO EXPERIMENTAL using a single agent. Multi-agent setups outperformed single-agent ones in three out of five test smell types, highlighting their potential to improve software quality with minimal developer effort. For the Assertion Roulette smell, however, a single agent performed better. To assess practical relevance, we submitted 10 pull requests with PHI 4 14B - generated code to open-source projects. Five were merged, one was rejected, and four remain under review, demonstrating the approach's real-world applicability.
- Abstract(参考訳): テストの臭いはテストスイートの信頼性を損なう可能性があり、ソフトウェアのメンテナンスを妨げます。
検査の臭いを検出する方法はいくつか存在するが、除去に対処する戦略はほとんどない。
従来の手法は静的解析や機械学習に依存しており、かなりの努力と専門知識を必要とする。
LLAMA 3.2 3B, GEMMA 2 9B, DEEPSEEK-R1 14B, PHI 4 14B(小型でオープンな言語モデル)をエージェントベースのワークフローによるテスト臭いの検出とリファクタリングを自動化するために評価した。
現実世界のJavaプロジェクトから抽出された5つの一般的なテスト臭いタイプの150インスタンスに対して、1つ、2つ、4つのエージェントでワークフローを探索する。
従来のアプローチとは異なり、自然言語定義による新しい臭いに容易に拡張可能で、PythonやGolangに一般化されています。
全てのモデルでほぼ全てのテストの臭いが検出され(pass@5は4つのエージェントで96%)、PHI 4 14Bは最も高いリファクタリング精度(pass@5は75.3%)を達成した。
分析は計算コストが安価で、コンシューマグレードのハードウェア上で効率的に動作した。
特に、PHI 4 14Bは、O1-MINI、O3-MINI-HIGH、GEMINI 2.5 PRO EXPERIMENTALなどのプロプライエタリモデルの5%以内で、単一のエージェントを使用して実行された。
マルチエージェントのセットアップは、5つのテスト臭いタイプのうち3つでシングルエージェントのセットアップよりも優れており、開発者の最小限の努力でソフトウェア品質を改善する可能性を強調している。
しかし、Assertion Rouletteの匂いは、単一のエージェントがよりよく機能した。
実践的関連性を評価するため、PHI 4 14Bで生成された10のプルリクエストをオープンソースプロジェクトに送信しました。
5つが合併され、1つが却下され、4つが検討中であり、アプローチの現実的な適用性を示している。
関連論文リスト
- Iterative Trajectory Exploration for Multimodal Agents [69.32855772335624]
本研究では,マルチモーダルエージェント,すなわちSPORTのオンライン自己探索手法を提案する。
Sportは、タスク合成、ステップサンプリング、ステップ検証、優先度調整の4つの反復的なコンポーネントを通じて動作する。
GTAとGAIAのベンチマークでは、Sport Agentは6.41%と3.64%の改善を達成している。
論文 参考訳(メタデータ) (2025-04-30T12:01:27Z) - R2E-Gym: Procedural Environments and Hybrid Verifiers for Scaling Open-Weights SWE Agents [32.06393076572057]
AgentGymは、現実世界のSWEエージェントを訓練するための、手続き的に計算された最大のジム環境である。
Syngen、合成データキュレーションのレシピ、ハイブリッドテストタイムスケーリングの2つの主要なコントリビューションによって実現されている。
提案手法は,SWE-Bench Verifiedベンチマークで51%を達成し,オープンウェイトSWEエージェントの新たな最先端性を反映した。
論文 参考訳(メタデータ) (2025-04-09T17:55:19Z) - A Comparative Study on Reasoning Patterns of OpenAI's o1 Model [69.08287909042421]
OpenAIのo1モデルは、ほとんどのデータセットで最高のパフォーマンスを実現しています。
また、いくつかの推論ベンチマークについて詳細な分析を行う。
論文 参考訳(メタデータ) (2024-10-17T15:09:03Z) - ScienceAgentBench: Toward Rigorous Assessment of Language Agents for Data-Driven Scientific Discovery [23.773528748933934]
我々は、データ駆動科学発見のための言語エージェントを評価するための新しいベンチマークであるScienceAgentBenchを紹介する。
44の査読論文から4つの分野の102の課題を抽出し,9つの課題の専門家による検証を行った。
ScienceAgentBenchを使って、オープンウェイトでプロプライエタリなLLMを5つ評価し、それぞれにダイレクトプロンプト、OpenHands CodeAct、セルフAIの3つのフレームワークを持つ。
論文 参考訳(メタデータ) (2024-10-07T14:33:50Z) - Evaluating Large Language Models in Detecting Test Smells [1.5691664836504473]
テストの臭いの存在は、ソフトウェアの保守性と信頼性に悪影響を及ぼす可能性がある。
本研究では,テスト臭の自動検出におけるLarge Language Models (LLMs) の有効性を評価することを目的とする。
論文 参考訳(メタデータ) (2024-07-27T14:00:05Z) - SOEN-101: Code Generation by Emulating Software Process Models Using Large Language Model Agents [50.82665351100067]
FlowGenは、複数のLarge Language Model (LLM)エージェントに基づいたソフトウェアプロセスモデルをエミュレートするコード生成フレームワークである。
FlowGenScrumをHumanEval、HumanEval-ET、MBPP、MBPP-ETの4つのベンチマークで評価した。
論文 参考訳(メタデータ) (2024-03-23T14:04:48Z) - Theoretically Achieving Continuous Representation of Oriented Bounding Boxes [64.15627958879053]
本論文は,オブジェクト指向境界ボックス表現における不連続性を完全に解決しようとする試みである。
本研究では,既存の検出器に容易に統合可能なCOBB(Continuous OBB)という新しい表現法を提案する。
OOD評価のためのオープンソースのディープラーニングフレームワークJittorの検出ツールボックスJDetをベースとした,モジュール化されたベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-29T09:27:40Z) - Towards Reliable AI Model Deployments: Multiple Input Mixup for
Out-of-Distribution Detection [4.985768723667418]
本稿では,OOD(Out-of-Distribution)検出問題の解法を提案する。
本手法は, 単一エポック微調整によるOOD検出性能の向上に有効である。
我々の方法は、ゼロからモデルを訓練する必要がなく、簡単に分類器にアタッチできる。
論文 参考訳(メタデータ) (2023-12-24T15:31:51Z) - MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。
各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。
我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z) - Machine Learning-Based Test Smell Detection [17.957877801382413]
テストの匂いは、テストケースを開発する際に採用される最適な設計選択の症状である。
そこで本研究では,機械学習による新しいテスト臭検出手法の設計と実験を行い,4つのテスト臭検出手法を提案する。
論文 参考訳(メタデータ) (2022-08-16T07:33:15Z) - Disentangle Your Dense Object Detector [82.22771433419727]
深層学習に基づく高密度物体検出器はここ数年で大きな成功を収め、ビデオ理解などのマルチメディアアプリケーションにも応用されてきた。
しかし、現在の高密度検出器の訓練パイプラインは、保持できない多くの接続に妥協されている。
そこで本研究では, 簡易かつ効果的な遠心分離機構を設計し, 現在の最先端検出器に統合するDED(Disentangled Dense Object Detector)を提案する。
論文 参考訳(メタデータ) (2021-07-07T00:52:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。