Fugu-MT 論文翻訳(概要): Agentic SLMs: Hunting Down Test Smells

論文の概要: Agentic SLMs: Hunting Down Test Smells

arxiv url: http://arxiv.org/abs/2504.07277v1
Date: Wed, 09 Apr 2025 21:12:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-19 00:55:13.593927
Title: Agentic SLMs: Hunting Down Test Smells
Title（参考訳）: エージェントSLM: テストスメルの追跡
Authors: Rian Melo, Pedro Simões, Rohit Gheyi, Marcelo d'Amorim, Márcio Ribeiro, Gustavo Soares, Eduardo Almeida, Elvys Soares,
Abstract要約: テストの臭いはテストスイートの信頼性を損なう可能性があり、ソフトウェアのメンテナンスを妨げます。本研究では, LLAMA 3.2 3B, GEMMA 2 9B, DEEPSEEK-R1 14B, PHI 4 14Bの評価を行った。実世界のJavaプロジェクトから抽出された5つの一般的なテスト臭いの種類を150のインスタンスで1つ、2つ、4つのエージェントで調査する。
参考スコア（独自算出の注目度）: 4.5274260758457645
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Test smells can compromise the reliability of test suites and hinder software maintenance. Although several strategies exist for detecting test smells, few address their removal. Traditional methods often rely on static analysis or machine learning, requiring significant effort and expertise. This study evaluates LLAMA 3.2 3B, GEMMA 2 9B, DEEPSEEK-R1 14B, and PHI 4 14B - small, open language models - for automating the detection and refactoring of test smells through agent-based workflows. We explore workflows with one, two, and four agents across 150 instances of 5 common test smell types extracted from real-world Java projects. Unlike prior approaches, ours is easily extensible to new smells via natural language definitions and generalizes to Python and Golang. All models detected nearly all test smell instances (pass@5 of 96% with four agents), with PHI 4 14B achieving the highest refactoring accuracy (pass@5 of 75.3%). Analyses were computationally inexpensive and ran efficiently on a consumer-grade hardware. Notably, PHI 4 14B with four agents performed within 5% of proprietary models such as O1-MINI, O3-MINI-HIGH, and GEMINI 2.5 PRO EXPERIMENTAL using a single agent. Multi-agent setups outperformed single-agent ones in three out of five test smell types, highlighting their potential to improve software quality with minimal developer effort. For the Assertion Roulette smell, however, a single agent performed better. To assess practical relevance, we submitted 10 pull requests with PHI 4 14B - generated code to open-source projects. Five were merged, one was rejected, and four remain under review, demonstrating the approach's real-world applicability.
Abstract（参考訳）: テストの臭いはテストスイートの信頼性を損なう可能性があり、ソフトウェアのメンテナンスを妨げます。検査の臭いを検出する方法はいくつか存在するが、除去に対処する戦略はほとんどない。従来の手法は静的解析や機械学習に依存しており、かなりの努力と専門知識を必要とする。 LLAMA 3.2 3B, GEMMA 2 9B, DEEPSEEK-R1 14B, PHI 4 14B(小型でオープンな言語モデル)をエージェントベースのワークフローによるテスト臭いの検出とリファクタリングを自動化するために評価した。現実世界のJavaプロジェクトから抽出された5つの一般的なテスト臭いタイプの150インスタンスに対して、1つ、2つ、4つのエージェントでワークフローを探索する。従来のアプローチとは異なり、自然言語定義による新しい臭いに容易に拡張可能で、PythonやGolangに一般化されています。全てのモデルでほぼ全てのテストの臭いが検出され(pass@5は4つのエージェントで96%)、PHI 4 14Bは最も高いリファクタリング精度(pass@5は75.3%)を達成した。分析は計算コストが安価で、コンシューマグレードのハードウェア上で効率的に動作した。特に、PHI 4 14Bは、O1-MINI、O3-MINI-HIGH、GEMINI 2.5 PRO EXPERIMENTALなどのプロプライエタリモデルの5%以内で、単一のエージェントを使用して実行された。マルチエージェントのセットアップは、5つのテスト臭いタイプのうち3つでシングルエージェントのセットアップよりも優れており、開発者の最小限の努力でソフトウェア品質を改善する可能性を強調している。しかし、Assertion Rouletteの匂いは、単一のエージェントがよりよく機能した。実践的関連性を評価するため、PHI 4 14Bで生成された10のプルリクエストをオープンソースプロジェクトに送信しました。 5つが合併され、1つが却下され、4つが検討中であり、アプローチの現実的な適用性を示している。

関連論文リスト

Quality Assessment of Python Tests Generated by Large Language Models [1.0845500038686533]
本稿では,GPT-4o,Amazon Q,LLama 3.3という3つの大規模言語モデルによって生成されたPythonテストコードの品質について検討する。我々は、Text2Code(T2C)とCode2Code(C2C)の2つの異なるプロンプトコンテキスト下で生成されたテストスイートの構造的信頼性を評価する。
論文参考訳（メタデータ） (2025-06-17T08:16:15Z)
Evaluating LLMs Effectiveness in Detecting and Correcting Test Smells: An Empirical Study [6.373038973241454]
テストの臭いは、テストコードの悪い開発プラクティスを示し、保守性と信頼性を低下させる。 GPT-4-TurboNose, LLaMA 3 70B, Gemini-1.5 ProをPythonおよびJavaテストスイート上で評価した。
論文参考訳（メタデータ） (2025-06-09T09:46:41Z)
Runaway is Ashamed, But Helpful: On the Early-Exit Behavior of Large Language Model-based Agents in Embodied Environments [55.044159987218436]
大規模言語モデル(LLM)は、複雑な実施環境において、強力な計画と意思決定能力を示す。 LLMをベースとしたエージェントの早期退避行動を探究する第一歩を踏み出す。
論文参考訳（メタデータ） (2025-05-23T08:23:36Z)
Distilling LLM Agent into Small Models with Retrieval and Code Tools [57.61747522001781]
Agent Distillationは、推論能力とタスク解決の振る舞いを大きな言語モデルから小さな言語モデルに移行するためのフレームワークである。その結果,SLMは0.5B,1.5B,3Bのパラメータで,次世代の1.5B,3B,7Bモデルと競合する性能が得られることがわかった。
論文参考訳（メタデータ） (2025-05-23T08:20:15Z)
Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文参考訳（メタデータ） (2025-04-30T23:09:44Z)
Iterative Trajectory Exploration for Multimodal Agents [69.32855772335624]
本研究では,マルチモーダルエージェント,すなわちSPORTのオンライン自己探索手法を提案する。 Sportは、タスク合成、ステップサンプリング、ステップ検証、優先度調整の4つの反復的なコンポーネントを通じて動作する。 GTAとGAIAのベンチマークでは、Sport Agentは6.41%と3.64%の改善を達成している。
論文参考訳（メタデータ） (2025-04-30T12:01:27Z)
R2E-Gym: Procedural Environments and Hybrid Verifiers for Scaling Open-Weights SWE Agents [32.06393076572057]
AgentGymは、現実世界のSWEエージェントを訓練するための、手続き的に計算された最大のジム環境である。 Syngen、合成データキュレーションのレシピ、ハイブリッドテストタイムスケーリングの2つの主要なコントリビューションによって実現されている。提案手法は,SWE-Bench Verifiedベンチマークで51%を達成し,オープンウェイトSWEエージェントの新たな最先端性を反映した。
論文参考訳（メタデータ） (2025-04-09T17:55:19Z)
LogiAgent: Automated Logical Testing for REST Systems with LLM-Based Multi-Agents [24.234475859016396]
LogiAgentは、RESTシステムの論理テストのための新しいアプローチである。ビジネスロジックに基づいて応答を評価する論理的オラクルが組み込まれている。基本的にはサーバのクラッシュの検出に優れ、最先端の4つのREST APIテストツールと比較してテストカバレッジが優れている。
論文参考訳（メタデータ） (2025-03-19T10:24:16Z)
MALT: Improving Reasoning with Multi-Agent LLM Training [66.9481561915524]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。 MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文参考訳（メタデータ） (2024-12-02T19:30:36Z)
A Comparative Study on Reasoning Patterns of OpenAI's o1 Model [69.08287909042421]
OpenAIのo1モデルは、ほとんどのデータセットで最高のパフォーマンスを実現しています。また、いくつかの推論ベンチマークについて詳細な分析を行う。
論文参考訳（メタデータ） (2024-10-17T15:09:03Z)
ScienceAgentBench: Toward Rigorous Assessment of Language Agents for Data-Driven Scientific Discovery [23.773528748933934]
我々は、データ駆動科学発見のための言語エージェントを評価するための新しいベンチマークであるScienceAgentBenchを紹介する。 44の査読論文から4つの分野の102の課題を抽出し,9つの課題の専門家による検証を行った。 ScienceAgentBenchを使って、オープンウェイトでプロプライエタリなLLMを5つ評価し、それぞれにダイレクトプロンプト、OpenHands CodeAct、セルフAIの3つのフレームワークを持つ。
論文参考訳（メタデータ） (2024-10-07T14:33:50Z)
On the Resilience of LLM-Based Multi-Agent Collaboration with Faulty Agents [58.79302663733703]
大規模言語モデルに基づくマルチエージェントシステムは、専門家エージェントの協力により、様々なタスクにまたがる優れた能力を示している。不器用なエージェントや悪意のあるエージェントが与える影響 - システム全体のパフォーマンスにおいて、頻繁にタスクでエラーを犯すものは、いまだに過小評価されていない。本稿では,下流タスクにおける障害要因下での各種システム構造のレジリエンスについて検討する。
論文参考訳（メタデータ） (2024-08-02T03:25:20Z)
Evaluating Large Language Models in Detecting Test Smells [1.5691664836504473]
テストの臭いの存在は、ソフトウェアの保守性と信頼性に悪影響を及ぼす可能性がある。本研究では,テスト臭の自動検出におけるLarge Language Models (LLMs) の有効性を評価することを目的とする。
論文参考訳（メタデータ） (2024-07-27T14:00:05Z)
SOEN-101: Code Generation by Emulating Software Process Models Using Large Language Model Agents [50.82665351100067]
FlowGenは、複数のLarge Language Model (LLM)エージェントに基づいたソフトウェアプロセスモデルをエミュレートするコード生成フレームワークである。 FlowGenScrumをHumanEval、HumanEval-ET、MBPP、MBPP-ETの4つのベンチマークで評価した。
論文参考訳（メタデータ） (2024-03-23T14:04:48Z)
Theoretically Achieving Continuous Representation of Oriented Bounding Boxes [64.15627958879053]
本論文は,オブジェクト指向境界ボックス表現における不連続性を完全に解決しようとする試みである。本研究では,既存の検出器に容易に統合可能なCOBB(Continuous OBB)という新しい表現法を提案する。 OOD評価のためのオープンソースのディープラーニングフレームワークJittorの検出ツールボックスJDetをベースとした,モジュール化されたベンチマークを開発した。
論文参考訳（メタデータ） (2024-02-29T09:27:40Z)
Towards Reliable AI Model Deployments: Multiple Input Mixup for Out-of-Distribution Detection [4.985768723667418]
本稿では,OOD(Out-of-Distribution)検出問題の解法を提案する。本手法は, 単一エポック微調整によるOOD検出性能の向上に有効である。我々の方法は、ゼロからモデルを訓練する必要がなく、簡単に分類器にアタッチできる。
論文参考訳（メタデータ） (2023-12-24T15:31:51Z)
MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文参考訳（メタデータ） (2023-10-05T04:06:12Z)
Machine Learning-Based Test Smell Detection [17.957877801382413]
テストの匂いは、テストケースを開発する際に採用される最適な設計選択の症状である。そこで本研究では,機械学習による新しいテスト臭検出手法の設計と実験を行い,4つのテスト臭検出手法を提案する。
論文参考訳（メタデータ） (2022-08-16T07:33:15Z)
Disentangle Your Dense Object Detector [82.22771433419727]
深層学習に基づく高密度物体検出器はここ数年で大きな成功を収め、ビデオ理解などのマルチメディアアプリケーションにも応用されてきた。しかし、現在の高密度検出器の訓練パイプラインは、保持できない多くの接続に妥協されている。そこで本研究では, 簡易かつ効果的な遠心分離機構を設計し, 現在の最先端検出器に統合するDED(Disentangled Dense Object Detector)を提案する。
論文参考訳（メタデータ） (2021-07-07T00:52:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。