論文の概要: An Empirical Study of Testing Practices in Open Source AI Agent Frameworks and Agentic Applications
- arxiv url: http://arxiv.org/abs/2509.19185v1
- Date: Tue, 23 Sep 2025 16:02:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.938872
- Title: An Empirical Study of Testing Practices in Open Source AI Agent Frameworks and Agentic Applications
- Title(参考訳): オープンソースAIエージェントフレームワークとエージェントアプリケーションにおけるテスト実践に関する実証的研究
- Authors: Mohammed Mehedi Hasan, Hao Li, Emad Fallahzadeh, Gopi Krishnan Rajbahadur, Bram Adams, Ahmed E. Hassan,
- Abstract要約: ファンデーションモデル(FM)ベースのAIエージェントは、さまざまなドメインで急速に採用されている。
その固有の非決定主義と非再現性は、テストと品質保証の課題を引き起こす。
AIエージェントエコシステムにおけるテストプラクティスの大規模な実証的研究を初めて実施する。
- 参考スコア(独自算出の注目度): 12.166151903597445
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Foundation model (FM)-based AI agents are rapidly gaining adoption across diverse domains, but their inherent non-determinism and non-reproducibility pose testing and quality assurance challenges. While recent benchmarks provide task-level evaluations, there is limited understanding of how developers verify the internal correctness of these agents during development. To address this gap, we conduct the first large-scale empirical study of testing practices in the AI agent ecosystem, analyzing 39 open-source agent frameworks and 439 agentic applications. We identify ten distinct testing patterns and find that novel, agent-specific methods like DeepEval are seldom used (around 1%), while traditional patterns like negative and membership testing are widely adapted to manage FM uncertainty. By mapping these patterns to canonical architectural components of agent frameworks and agentic applications, we uncover a fundamental inversion of testing effort: deterministic components like Resource Artifacts (tools) and Coordination Artifacts (workflows) consume over 70% of testing effort, while the FM-based Plan Body receives less than 5%. Crucially, this reveals a critical blind spot, as the Trigger component (prompts) remains neglected, appearing in around 1% of all tests. Our findings offer the first empirical testing baseline in FM-based agent frameworks and agentic applications, revealing a rational but incomplete adaptation to non-determinism. To address it, framework developers should improve support for novel testing methods, application developers must adopt prompt regression testing, and researchers should explore barriers to adoption. Strengthening these practices is vital for building more robust and dependable AI agents.
- Abstract(参考訳): ファンデーションモデル(FM)ベースのAIエージェントは、さまざまなドメインで急速に採用されているが、その固有の非決定性と非再現性は、テストと品質保証の課題を引き起こす。
最近のベンチマークでは、タスクレベルの評価が提供されているが、開発中にこれらのエージェントの内部的正当性を検証する方法については、限定的な理解がされている。
このギャップに対処するため、我々はAIエージェントエコシステムにおけるテストプラクティスの大規模な実証的研究を行い、39のオープンソースエージェントフレームワークと439のエージェントアプリケーションを分析した。
私たちは10の異なるテストパターンを特定し、DeepEvalのような新しいエージェント固有の手法がほとんど使われていない(約1%)のに対して、ネガティブテストやメンバシップテストのような従来のパターンはFMの不確実性を管理するために広く適用されている。
リソースアーティファクト(ツール)やコーディネーションアーティファクト(ワークフロー)といった決定論的コンポーネントは、テストの70%以上を消費しますが、FMベースのPlan Bodyは5%以下です。
Triggerコンポーネント(prompts)は依然として無視されており、すべてのテストの約1%に現れている。
FMをベースとしたエージェントフレームワークとエージェントアプリケーションにおいて,初となる実証試験ベースラインが提供され,非決定論への合理的かつ不完全な適応が明らかとなった。
これに対処するためには、フレームワーク開発者は新しいテストメソッドのサポートを改善し、アプリケーション開発者は即時回帰テストを採用する必要がある。
これらのプラクティスを強化することは、より堅牢で信頼性の高いAIエージェントを構築する上で不可欠である。
関連論文リスト
- FIRE-Bench: Evaluating Agents on the Rediscovery of Scientific Insights [63.32178443510396]
FIRE-Bench (Full-cycle Insight Rediscovery Evaluation) は、確立された発見の再検討を通じてエージェントを評価するベンチマークである。
最強のエージェントでさえ、限られた再発見成功(50 F1)を達成し、実行中に高いばらつきを示し、実験的な設計、実行、エビデンスに基づく推論において繰り返し失敗モードを表示する。
論文 参考訳(メタデータ) (2026-02-02T23:21:13Z) - Automated structural testing of LLM-based agents: methods, framework, and case studies [0.05254956925594667]
LLMベースのエージェントは、様々な領域で急速に採用されている。
現在のテストアプローチは、ユーザの視点からの受け入れレベルの評価に重点を置いている。
LLMをベースとしたエージェントの構造試験を可能にする手法を提案する。
論文 参考訳(メタデータ) (2026-01-25T11:52:30Z) - The Rise of Agentic Testing: Multi-Agent Systems for Robust Software Quality Assurance [0.0]
現在のAIベースのテストジェネレータは、実行意識のフィードバックがないため、無効、冗長、あるいは実行不可能なテストを生成する。
本稿では,テスト生成エージェント,実行・分析エージェント,レビュー・最適化エージェントが協調してテストの生成,実行,解析,精査を行う,クローズドループの自己修正システムを提案する。
論文 参考訳(メタデータ) (2026-01-05T18:20:14Z) - Reinforcement Learning Integrated Agentic RAG for Software Test Cases Authoring [0.0]
本稿では,品質工学(QE)における業務要件文書から作成するソフトウェアテストケースの自動処理の継続的改善を実現するために,強化学習(RL)を自律エージェントと統合するフレームワークを提案する。
提案するReinforcement Infused Agentic RAG(Retrieve, Augment, Generate)フレームワークは,QEフィードバックや評価,欠陥発見結果から学習するAIエージェントを用いて,テストケース生成戦略を自動改善することで,この制限を克服する。
論文 参考訳(メタデータ) (2025-12-05T17:52:26Z) - SelfAI: Building a Self-Training AI System with LLM Agents [79.10991818561907]
SelfAIは、高レベルの研究目的を標準化された実験構成に変換するためのUser Agentを組み合わせた、一般的なマルチエージェントプラットフォームである。
実験マネージャは、連続的なフィードバックのための構造化知識ベースを維持しながら、異種ハードウェアをまたいだ並列かつフォールトトレラントなトレーニングを編成する。
回帰、コンピュータビジョン、科学計算、医用画像、薬物発見ベンチマークなどを通じて、SelfAIは一貫して高いパフォーマンスを達成し、冗長な試行を減らしている。
論文 参考訳(メタデータ) (2025-11-29T09:18:39Z) - AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite [75.58737079136942]
本稿では,AstaBenchについて紹介する。AstaBenchは,科学的研究を行うためのエージェント能力の総合的な測定を行うスイートである。
私たちのスイートには、プロダクショングレードの検索ツールを備えた、最初の科学研究環境が付属しています。
22のエージェントクラスで57のエージェントを評価したところ,いくつかの興味深い結果が得られた。
論文 参考訳(メタデータ) (2025-10-24T17:10:26Z) - Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics [89.1999907891494]
We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。
25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。
私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
論文 参考訳(メタデータ) (2025-10-01T07:59:03Z) - SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents [93.26456498576181]
本稿では,ディープリサーチのためのネイティブ自律単エージェントモデルの開発に焦点をあてる。
我々の最良の変種であるSFR-DR-20Bは、HumanityのLast Examベンチマークで28.7%に達する。
論文 参考訳(メタデータ) (2025-09-08T02:07:09Z) - Cognitive Kernel-Pro: A Framework for Deep Research Agents and Agent Foundation Models Training [67.895981259683]
汎用AIエージェントは、次世代人工知能の基礎となるフレームワークとして、ますます認識されている。
現在のエージェントシステムはクローズドソースか、さまざまな有料APIやプロプライエタリなツールに大きく依存している。
我々は,完全オープンソースかつ(最大限に)フリーなマルチモジュールエージェントフレームワークであるCognitive Kernel-Proを提案する。
論文 参考訳(メタデータ) (2025-08-01T08:11:31Z) - OAgents: An Empirical Study of Building Effective Agents [46.50371876218872]
キーエージェントコンポーネントにおける一般的な設計選択の影響を,公平かつ厳密な方法で検討する。
この結果に基づいて,新たな基盤エージェントフレームワークであるOAgentsをオープンソースとして開発しています。
論文 参考訳(メタデータ) (2025-06-17T17:59:02Z) - TestAgent: An Adaptive and Intelligent Expert for Human Assessment [62.060118490577366]
対話型エンゲージメントによる適応テストを強化するために,大規模言語モデル(LLM)を利用したエージェントであるTestAgentを提案する。
TestAgentは、パーソナライズされた質問の選択をサポートし、テストテイカーの応答と異常をキャプチャし、動的で対話的なインタラクションを通じて正確な結果を提供する。
論文 参考訳(メタデータ) (2025-06-03T16:07:54Z) - Autonomous Microscopy Experiments through Large Language Model Agents [4.241267255764773]
大規模言語モデル(LLM)は、材料研究のための自己運転実験室(SDL)に革命をもたらしている。
LLM駆動エージェントによる原子間力顕微鏡の自動化フレームワークであるArtificially Intelligent Lab Assistant (AILA)を紹介する。
アートモデルの現状が,基本的なタスクや調整シナリオに苦労していることに気付きました。
論文 参考訳(メタデータ) (2024-12-18T09:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。