Fugu-MT 論文翻訳(概要): Reinforcement Learning Integrated Agentic RAG for Software Test Cases Authoring

論文の概要: Reinforcement Learning Integrated Agentic RAG for Software Test Cases Authoring

arxiv url: http://arxiv.org/abs/2512.06060v1
Date: Fri, 05 Dec 2025 17:52:26 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-09 22:03:54.176108
Title: Reinforcement Learning Integrated Agentic RAG for Software Test Cases Authoring
Title（参考訳）: ソフトウェアテストケースオーサリングのための強化学習統合エージェントRAG
Authors: Mohanakrishnan Hariharan,
Abstract要約: 本稿では,品質工学(QE)における業務要件文書から作成するソフトウェアテストケースの自動処理の継続的改善を実現するために,強化学習(RL)を自律エージェントと統合するフレームワークを提案する。提案するReinforcement Infused Agentic RAG(Retrieve, Augment, Generate)フレームワークは,QEフィードバックや評価,欠陥発見結果から学習するAIエージェントを用いて,テストケース生成戦略を自動改善することで,この制限を克服する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: This paper introduces a framework that integrates reinforcement learning (RL) with autonomous agents to enable continuous improvement in the automated process of software test cases authoring from business requirement documents within Quality Engineering (QE) workflows. Conventional systems employing Large Language Models (LLMs) generate test cases from static knowledge bases, which fundamentally limits their capacity to enhance performance over time. Our proposed Reinforcement Infused Agentic RAG (Retrieve, Augment, Generate) framework overcomes this limitation by employing AI agents that learn from QE feedback, assessments, and defect discovery outcomes to automatically improve their test case generation strategies. The system combines specialized agents with a hybrid vector-graph knowledge base that stores and retrieves software testing knowledge. Through advanced RL algorithms, specifically Proximal Policy Optimization (PPO) and Deep Q-Networks (DQN), these agents optimize their behavior based on QE-reported test effectiveness, defect detection rates, and workflow metrics. As QEs execute AI-generated test cases and provide feedback, the system learns from this expert guidance to improve future iterations. Experimental validation on enterprise Apple projects yielded substantive improvements: a 2.4% increase in test generation accuracy (from 94.8% to 97.2%), and a 10.8% improvement in defect detection rates. The framework establishes a continuous knowledge refinement loop driven by QE expertise, resulting in progressively superior test case quality that enhances, rather than replaces, human testing capabilities.
Abstract（参考訳）: 本稿では,強化学習(RL)を自律エージェントと統合し,品質工学(QE)ワークフロー内のビジネス要件文書から作成するソフトウェアテストケースの自動処理の継続的改善を実現するフレームワークを提案する。 LLM(Large Language Models)を用いた従来のシステムは、静的な知識ベースからテストケースを生成する。提案するReinforcement Infused Agentic RAG(Retrieve, Augment, Generate)フレームワークは,QEフィードバックや評価,欠陥発見結果から学習するAIエージェントを用いて,テストケース生成戦略を自動改善することで,この制限を克服する。このシステムは、専門エージェントとハイブリッドなベクトルグラフ知識ベースを組み合わせることで、ソフトウェアテスト知識を格納し、取得する。高度なRLアルゴリズム、特にPPO(Proximal Policy Optimization)とDQN(Deep Q-Networks)を通じて、これらのエージェントはQEが報告したテストの有効性、欠陥検出率、ワークフローメトリクスに基づいて、その振る舞いを最適化する。 QEがAI生成のテストケースを実行してフィードバックを提供すると、システムはこのエキスパートガイダンスから学び、将来のイテレーションを改善する。エンタープライズAppleプロジェクトの実験的検証では、テスト生成精度が2.4%向上(94.8%から97.2%)、欠陥検出率が10.8%向上した。このフレームワークは、QE専門知識によって駆動される継続的知識改善ループを確立し、結果として、人間のテスト能力を置き換えるのではなく、徐々に優れたテストケース品質を実現する。

関連論文リスト

Test-time Recursive Thinking: Self-Improvement without External Feedback [120.80790108733942]
TRT(Test-time Recursive Thinking)は、反復的な自己改善フレームワークである。オープンソースモデルはAIME-25/24で100%精度に達し、LiveCodeBenchの最も難しい問題では、クローズドソースモデルは外部からのフィードバックなしで10.4-14.8ポイント改善されている。
論文参考訳（メタデータ） (2026-02-03T04:37:37Z)
EmboCoach-Bench: Benchmarking AI Agents on Developing Embodied Robots [68.29056647487519]
Embodied AIは、高忠実度シミュレーションと大規模データ収集によって実現されている。しかし、このスケーリング能力は、労働集約的な手作業の監視に依存しているため、いまだにボトルネックになっている。実装ポリシーを自律的に構築するための LLM エージェントの能力を評価するベンチマークである textscEmboCoach-Bench を紹介する。
論文参考訳（メタデータ） (2026-01-29T11:33:49Z)
Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification [71.98473277917962]
近年のDeep Research Agents (DRA) の進歩は、自動知識発見と問題解決に変化をもたらしている。本稿では,政策モデルのアウトプットを反復的に検証することで,エージェントの能力を自己進化させる手法を提案する。検証の非対称性を生かしたルーブリックスに基づく結果報酬検証器であるDeepVerifierを提案する。
論文参考訳（メタデータ） (2026-01-22T09:47:31Z)
The Rise of Agentic Testing: Multi-Agent Systems for Robust Software Quality Assurance [0.0]
現在のAIベースのテストジェネレータは、実行意識のフィードバックがないため、無効、冗長、あるいは実行不可能なテストを生成する。本稿では,テスト生成エージェント,実行・分析エージェント,レビュー・最適化エージェントが協調してテストの生成,実行,解析,精査を行う,クローズドループの自己修正システムを提案する。
論文参考訳（メタデータ） (2026-01-05T18:20:14Z)
SelfAI: Building a Self-Training AI System with LLM Agents [79.10991818561907]
SelfAIは、高レベルの研究目的を標準化された実験構成に変換するためのUser Agentを組み合わせた、一般的なマルチエージェントプラットフォームである。実験マネージャは、連続的なフィードバックのための構造化知識ベースを維持しながら、異種ハードウェアをまたいだ並列かつフォールトトレラントなトレーニングを編成する。回帰、コンピュータビジョン、科学計算、医用画像、薬物発見ベンチマークなどを通じて、SelfAIは一貫して高いパフォーマンスを達成し、冗長な試行を減らしている。
論文参考訳（メタデータ） (2025-11-29T09:18:39Z)
Agentic RAG for Software Testing with Hybrid Vector-Graph and Multi-Agent Orchestration [0.0]
本稿では,品質工学(QE)アーティファクト作成のためのRAGシステムを用いたソフトウェアテスト自動化手法を提案する。我々は、自律型AIエージェントとハイブリッドベクトルグラフ知識システムを組み合わせて、テスト計画、ケース、QEメトリクス生成を自動化する。
論文参考訳（メタデータ） (2025-10-12T22:25:15Z)
Breaking Barriers in Software Testing: The Power of AI-Driven Automation [0.0]
本稿では、自然言語処理(NLP)、強化学習(RL)、予測モデルを用いたテストケース生成と検証を自動化するAI駆動フレームワークを提案する。ケーススタディでは、欠陥の検出、テストの労力の削減、リリースサイクルの高速化が測定可能な向上を示している。
論文参考訳（メタデータ） (2025-08-22T01:04:50Z)
Rethinking Verification for LLM Code Generation: From Generation to Testing [44.46778801679273]
大規模言語モデル(LLM)は最近、HumanEvalやLiveCodeBenchといったコード生成ベンチマークで顕著な成功を収めた。本稿では,テストスーツの厳密な定量化を目的とした新しい多次元メトリクスを提案する。実験の結果、SAGAは90.62%、検証器の精度はTCGBenchで32.58%に達することがわかった。
論文参考訳（メタデータ） (2025-07-09T14:58:47Z)
AI-Driven Tools in Modern Software Quality Assurance: An Assessment of Benefits, Challenges, and Future Directions [0.0]
この研究は、現代のAI指向ツールを品質保証プロセスに統合するメリット、課題、および展望を評価することを目的としている。この研究は、AIがQAに変革をもたらす可能性を実証しているが、これらの技術を実装するための戦略的アプローチの重要性を強調している。
論文参考訳（メタデータ） (2025-06-19T20:22:47Z)
Scoring Verifiers: Evaluating Synthetic Verification for Code and Reasoning [59.25951947621526]
本稿では,既存の符号化ベンチマークをスコアとランキングデータセットに変換して,合成検証の有効性を評価する手法を提案する。我々は4つの新しいベンチマーク(HE-R, HE-R+, MBPP-R, MBPP-R+)を公表し, 標準, 推論, 報酬に基づくLCMを用いて合成検証手法を解析した。実験の結果, 推論はテストケースの生成を著しく改善し, テストケースのスケーリングによって検証精度が向上することがわかった。
論文参考訳（メタデータ） (2025-02-19T15:32:11Z)
AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文参考訳（メタデータ） (2024-11-02T13:24:30Z)
The Future of Software Testing: AI-Powered Test Case Generation and Validation [0.0]
本稿では、テストケースの生成と検証を改善する上で、AIが持つ変革の可能性について考察する。テストプロセスの効率性、正確性、スケーラビリティを高める能力に重点を置いている。また、高品質なトレーニングデータの必要性など、テストにAIを適用する際の重要な課題にも対処している。
論文参考訳（メタデータ） (2024-09-09T17:12:40Z)
Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
SUPERNOVA: Automating Test Selection and Defect Prevention in AAA Video Games Using Risk Based Testing and Machine Learning [62.997667081978825]
従来の手法では、成長するソフトウェアシステムではスケールできないため、ビデオゲームのテストはますます難しいタスクになります。自動化ハブとして機能しながら,テスト選択と欠陥防止を行うシステム SUPERNOVA を提案する。この直接的な影響は、未公表のスポーツゲームタイトルの55%以上のテスト時間を減らすことが観察されている。
論文参考訳（メタデータ） (2022-03-10T00:47:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。