Fugu-MT 論文翻訳(概要): Software Testing with Large Language Models: An Interview Study with Practitioners

論文の概要: Software Testing with Large Language Models: An Interview Study with Practitioners

arxiv url: http://arxiv.org/abs/2510.17164v1
Date: Mon, 20 Oct 2025 05:06:56 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-25 00:56:39.312787
Title: Software Testing with Large Language Models: An Interview Study with Practitioners
Title（参考訳）: 大規模言語モデルによるソフトウェアテスト: 実践者へのインタビュー
Authors: Maria Deolinda Santana, Cleyton Magalhaes, Ronnie de Souza Santos,
Abstract要約: ソフトウェアテストにおける大きな言語モデルの使用は、多くのタスクをサポートするにつれて急速に増加しています。しかし、彼らの採用は構造的なガイダンスよりも非公式な実験に依存していることが多い。本研究は,ソフトウェアテスト専門家が LLM を用いて,予備的,実践的インフォームドガイドラインを提案する方法について考察する。
参考スコア（独自算出の注目度）: 2.198430261120653
License: http://creativecommons.org/licenses/by/4.0/
Abstract: \textit{Background:} The use of large language models in software testing is growing fast as they support numerous tasks, from test case generation to automation, and documentation. However, their adoption often relies on informal experimentation rather than structured guidance. \textit{Aims:} This study investigates how software testing professionals use LLMs in practice to propose a preliminary, practitioner-informed guideline to support their integration into testing workflows. \textit{Method:} We conducted a qualitative study with 15 software testers from diverse roles and domains. Data were collected through semi-structured interviews and analyzed using grounded theory-based processes focused on thematic analysis. \textit{Results:} Testers described an iterative and reflective process that included defining testing objectives, applying prompt engineering strategies, refining prompts, evaluating outputs, and learning over time. They emphasized the need for human oversight and careful validation, especially due to known limitations of LLMs such as hallucinations and inconsistent reasoning. \textit{Conclusions:} LLM adoption in software testing is growing, but remains shaped by evolving practices and caution around risks. This study offers a starting point for structuring LLM use in testing contexts and invites future research to refine these practices across teams, tools, and tasks.
Abstract（参考訳）: \textit{Background:} ソフトウェアテストにおける大きな言語モデルの使用は、テストケース生成から自動化、ドキュメントに至るまで、数多くのタスクをサポートするにつれて急速に増加しています。しかし、彼らの採用は構造的なガイダンスよりも非公式な実験に依存していることが多い。この研究は、ソフトウェアテスティングの専門家が実際にLLMを使用して、テストワークフローへの統合をサポートするための予備的な実践的インフォームドガイドラインを提案する方法について調査する。さまざまな役割やドメインから15人のソフトウェアテスタと質的研究を行いました。半構造化インタビューを通じてデータを収集し,テーマ分析に焦点をあてた基礎理論に基づくプロセスを用いて分析した。テスタは、テスト目標の定義、プロンプトエンジニアリング戦略の適用、プロンプトの精製、アウトプットの評価、時間の経過とともに学習を含む、反復的で反射的なプロセスについて説明した。彼らは、特に幻覚や矛盾した推論のようなLLMの既知の制限のために、人間の監視と慎重な検証の必要性を強調した。 \textit{Conclusions:} ソフトウェアテストにおけるLLMの採用は増え続けているが、依然として進化するプラクティスとリスクに対する注意によって形づくられている。この研究は、テスト環境でのLLMの使用を構造化するための出発点を提供し、チーム、ツール、タスク間でこれらのプラクティスを洗練するための将来の研究を招待する。

関連論文リスト

Automated Test Suite Enhancement Using Large Language Models with Few-shot Prompting [0.0]
単体テストは、コードモジュールの機能的正当性を検証するのに不可欠である。検索ベースのソフトウェアテスト(SBST)、可読性、自然性、実用的なユーザビリティの欠如など、従来のアプローチを採用したツールによって生成されたユニットテスト。ソフトウェアリポジトリには、人間によるテスト、LLMで生成されたテスト、SBSTのような従来のアプローチを使ったツールが混在している。
論文参考訳（メタデータ） (2026-02-12T18:42:49Z)
Rethinking Testing for LLM Applications: Characteristics, Challenges, and a Lightweight Interaction Protocol [83.83217247686402]
大言語モデル(LLM)は、単純なテキストジェネレータから、検索強化、ツール呼び出し、マルチターンインタラクションを統合する複雑なソフトウェアシステムへと進化してきた。その固有の非決定主義、ダイナミズム、文脈依存は品質保証に根本的な課題をもたらす。本稿では,LLMアプリケーションを3層アーキテクチャに分解する: textbftextitSystem Shell Layer, textbftextitPrompt Orchestration Layer, textbftextitLLM Inference Core。
論文参考訳（メタデータ） (2025-08-28T13:00:28Z)
Testing the Untestable? An Empirical Study on the Testing Process of LLM-Powered Software Systems [0.0]
本研究では,実世界のアプリケーション開発において,大規模言語モデルがどのようにテストされるかを検討する。ケーススタディは、LLMを利用したアプリケーションを大学コースの一部として構築・展開した学生によって書かれた99の個人レポートを用いて実施された。結果: LLMを利用したシステムをテストするには, 従来の検証手法に適応し, ソースレベルの推論と行動認識評価をブレンドする必要がある。
論文参考訳（メタデータ） (2025-07-31T22:39:24Z)
Do AI models help produce verified bug fixes? [62.985237003585674]
大規模言語モデルは、ソフトウェアバグの修正に使用される。本稿では,プログラマが大規模言語モデルを用いて,自身のスキルを補完する方法について検討する。その結果は、プログラムバグに対する保証された修正を提供するAIとLLMの適切な役割への第一歩となる。
論文参考訳（メタデータ） (2025-07-21T17:30:16Z)
IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文参考訳（メタデータ） (2025-05-23T09:37:52Z)
ASTER: Natural and Multi-language Unit Test Generation with LLMs [6.259245181881262]
静的解析を組み込んだジェネリックパイプラインを記述し,コンパイル可能な高カバレッジテストケースの生成においてLCMをガイドする。コードカバレッジとテスト自然性の観点から,生成したテストの品質を評価するための実証的研究を行った。
論文参考訳（メタデータ） (2024-09-04T21:46:18Z)
Learning to Ask: When LLM Agents Meet Unclear Instruction [55.65312637965779]
大きな言語モデル(LLM)は、言語スキルだけでは達成不可能なタスクに対処するための外部ツールを活用することができる。我々は、不完全な命令下でのLLMツールの使用性能を評価し、エラーパターンを分析し、Noisy ToolBenchと呼ばれる挑戦的なツール使用ベンチマークを構築した。 Ask-when-Needed (AwN) という新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-08-31T23:06:12Z)
Automatic benchmarking of large multimodal models via iterative experiment programming [71.78089106671581]
本稿では,LMMの自動ベンチマークのための最初のフレームワークであるAPExを紹介する。自然言語で表現された研究の質問に対して、APExは大きな言語モデル(LLM)と事前定義されたツールのライブラリを活用して、手元にあるモデルの一連の実験を生成する。調査の現在の状況に基づいて、APExはどの実験を行うか、結果が結論を引き出すのに十分かどうかを選択する。
論文参考訳（メタデータ） (2024-06-18T06:43:46Z)
A Case Study on Test Case Construction with Large Language Models: Unveiling Practical Insights and Challenges [2.7029792239733914]
本稿では,ソフトウェア工学の文脈におけるテストケース構築における大規模言語モデルの適用について検討する。定性分析と定量分析の混合により, LLMが試験ケースの包括性, 精度, 効率に与える影響を評価する。
論文参考訳（メタデータ） (2023-12-19T20:59:02Z)
Are We Testing or Being Tested? Exploring the Practical Applications of Large Language Models in Software Testing [0.0]
LLM(Large Language Model)は、コヒーレントなコンテンツを生成する最先端の人工知能モデルである。 LLMは、ソフトウェアテストを含むソフトウェア開発において重要な役割を担います。本研究では,産業環境でのソフトウェアテストにおけるLCMの実用化について検討する。
論文参考訳（メタデータ） (2023-12-08T06:30:37Z)
Instruction Tuning for Large Language Models: A Survey [52.86322823501338]
我々は、教師付き微調整(SFT)の一般的な方法論を含む、文献の体系的なレビューを行う。また、既存の戦略の欠陥を指摘しながら、SFTの潜在的な落とし穴についても、それに対する批判とともに検討する。
論文参考訳（メタデータ） (2023-08-21T15:35:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。