論文の概要: DeepFix: Debugging and Fixing Machine Learning Workflow using Agentic AI
- arxiv url: http://arxiv.org/abs/2603.14099v1
- Date: Sat, 14 Mar 2026 20:00:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.602511
- Title: DeepFix: Debugging and Fixing Machine Learning Workflow using Agentic AI
- Title(参考訳): DeepFix: エージェントAIを使用した機械学習ワークフローのデバッグと修正
- Authors: Fadel Mamar Seydou, Arnab Sharma,
- Abstract要約: DeepFixはエージェントAIフレームワークを使用して、マシンラーニングパイプライン全体を自動テストするツールである。
私たちのテストアプローチは、まずDeepchecksを活用して、潜在的なバグに対するMLソフトウェアのテストを行い、その後、エージェントAIベースのアプローチを使用して詳細なバグレポートを生成する。
これには、見つかったバグの深刻度に基づくランキングと、その説明が含まれており、非データサイエンスの専門家によって容易に解釈できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, machine learning (ML) based software systems are increasingly deployed in several critical applications, yet systematic testing of their behavior remains challenging due to complex model architectures, large input spaces, and evolving deployment environments. Existing testing approaches often rely on generating test cases based on given requirements, which often fail to reveal critical bugs of modern ML models due to their complex nature. Most importantly, such approaches, although they can be used to detect the presence of specific failures in the ML software, they hardly provide any message as to how to fix such errors. To tackle this, in this paper, we present DeepFix, a tool for automated testing of the entire ML pipeline using an agentic AI framework. Our testing approach first leverages Deepchecks to test the ML software for any potential bugs, and thereafter, uses an agentic AI-based approach to generate a detailed bug report. This includes a ranking, based on the severity of the found bugs, along with their explanations, which can be interpreted easily by any non-data science experts and most importantly, also provides possible ways to fix these bugs. Additionally, DeepFix supports several types of ML software systems and can be integrated easily to any ML workflow, enabling continuous testing throughout the development lifecycle. We discuss our already validated cases as well as some planned validations designed to demonstrate how the agentic testing process can reveal hidden failure modes that remain undetected by conventional testing methods. A 5-minute screencast demonstrating the tool's core functionality is available at https://youtu.be/WfwZmFcQgBQ.
- Abstract(参考訳): 近年、機械学習(ML)ベースのソフトウェアシステムは、いくつかの重要なアプリケーションにますますデプロイされているが、複雑なモデルアーキテクチャ、大規模な入力スペース、デプロイメント環境の進化など、その振る舞いの体系的なテストは難しいままである。
既存のテストアプローチは、しばしば所定の要件に基づいてテストケースを生成することに依存する。
最も重要な点として、このようなアプローチは、MLソフトウェアに特定の障害が存在することを検出するのに使用できるが、そのようなエラーを修正する方法に関するメッセージはほとんど提供されない。
本稿では,エージェントAIフレームワークを用いたMLパイプライン全体の自動テストツールであるDeepFixを紹介する。
私たちのテストアプローチは、まずDeepchecksを活用して、潜在的なバグに対するMLソフトウェアのテストを行い、その後、エージェントAIベースのアプローチを使用して詳細なバグレポートを生成する。
これには、見つかったバグの深刻度に基づくランキングと、その説明が含まれており、これはデータサイエンスの専門家以外の専門家によって容易に解釈でき、また最も重要な点として、これらのバグを修正する方法も提供する。
さらに、DeepFixはいくつかのタイプのMLソフトウェアシステムをサポートしており、任意のMLワークフローに簡単に統合でき、開発ライフサイクルを通して継続的テストを可能にする。
我々は、すでに検証済みのケースと、エージェントテストプロセスが従来のテスト手法で検出されていない隠れ障害モードを明らかにする方法を実証するために設計されたいくつかの検証について論じる。
ツールの中核機能を示す5分間のスクリーンキャストがhttps://youtu.be/WfwZmFcQgBQで公開されている。
関連論文リスト
- Automating Detection and Root-Cause Analysis of Flaky Tests in Quantum Software [3.853925623717688]
本稿では,量子ソフトウェアリポジトリにおけるフレキシブルテスト関連の問題とプルリクエストを検出する自動パイプラインを提案する。
我々は、既存の量子フレキテストデータセットを拡張し、フレキネス分類と根本原因同定のための大規模言語モデルの性能を評価する。
最高のパフォーマンスモデルであるGoogle Geminiは、フレキネス検出のためのF1スコア0.9420、根本原因同定のための0.9643を達成している。
論文 参考訳(メタデータ) (2026-03-09T23:57:55Z) - Automated structural testing of LLM-based agents: methods, framework, and case studies [0.05254956925594667]
LLMベースのエージェントは、様々な領域で急速に採用されている。
現在のテストアプローチは、ユーザの視点からの受け入れレベルの評価に重点を置いている。
LLMをベースとしたエージェントの構造試験を可能にする手法を提案する。
論文 参考訳(メタデータ) (2026-01-25T11:52:30Z) - ImpossibleBench: Measuring LLMs' Propensity of Exploiting Test Cases [58.411135609139855]
タスク完了のための「ショートカット」は、大規模言語モデルの信頼性評価と展開に重大なリスクをもたらす。
我々は,LLMエージェントがテストケースを利用するための正当性を測定するベンチマークフレームワークであるImpossibleBenchを紹介する。
実践的なフレームワークとして、ImpossibleBenchは単なる評価ではなく、汎用的なツールである。
論文 参考訳(メタデータ) (2025-10-23T06:58:32Z) - InspectCoder: Dynamic Analysis-Enabled Self Repair through interactive LLM-Debugger Collaboration [71.18377595277018]
大きな言語モデル(LLM)は、診断が難しい複雑なロジックエラーを伴うバグの多いコードを生成することが多い。
対話型デバッガ制御による動的解析を LLM に委ねる初のエージェントプログラム修復システムである InspectCoder を提案する。
論文 参考訳(メタデータ) (2025-10-21T06:26:29Z) - Do AI models help produce verified bug fixes? [62.985237003585674]
大規模言語モデルは、ソフトウェアバグの修正に使用される。
本稿では,プログラマが大規模言語モデルを用いて,自身のスキルを補完する方法について検討する。
その結果は、プログラムバグに対する保証された修正を提供するAIとLLMの適切な役割への第一歩となる。
論文 参考訳(メタデータ) (2025-07-21T17:30:16Z) - Using ML filters to help automated vulnerability repairs: when it helps and when it doesn't [5.10123605644148]
テストは通常、アプリケーションを構築するためのコストのかかるプロセスが必要ですが、MLモデルはパッチの迅速な分類に使用できます。
テストに基づいて従来のフィルタの前に置かれる候補パッチの予備フィルタとしてMLモデルを用いることを提案する。
論文 参考訳(メタデータ) (2025-04-09T16:39:09Z) - Design choices made by LLM-based test generators prevent them from finding bugs [0.850206009406913]
本稿は,最近のLCMベースのテスト生成ツールであるCodium CoverAgentやCoverUpが,効果的にバグを見つけたり,意図せずに欠陥コードを検証することができるかどうかを,批判的に検証する。
実際の人手によるバグ検出コードを入力として使用すると、これらのツールを評価し、LCM生成テストがバグの検出に失敗する可能性を示し、さらに警告として、生成されたテストスイートのバグを検証することで、その設計が状況を悪化させる可能性があることを示します。
論文 参考訳(メタデータ) (2024-12-18T18:33:26Z) - AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。
各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。
我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z) - Detecting Faults during Automatic Screwdriving: A Dataset and Use Case
of Anomaly Detection for Automatic Screwdriving [80.6725125503521]
障害検出に機械学習(ML)を使用したデータ駆動型アプローチが最近注目されている。
本稿では,自動スクリュー運転時の故障検出にMLモデルを用いた場合について述べる。
論文 参考訳(メタデータ) (2021-07-05T11:46:00Z) - Mutation Testing framework for Machine Learning [0.0]
機械学習モデルの失敗は、生命や財産の喪失という観点から、深刻な結果をもたらす可能性がある。
世界中の開発者、科学者、そしてMLコミュニティは、重要なMLアプリケーションのための信頼性の高いテストアーキテクチャを構築しなければなりません。
この記事では、機械学習システム(MLS)テスト、その進化、現在のパラダイム、将来の作業に関する洞察的な旅を提供します。
論文 参考訳(メタデータ) (2021-02-19T18:02:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。