論文の概要: ATTest: Agent-Driven Tensor Testing for Deep Learning Library Modules
- arxiv url: http://arxiv.org/abs/2602.13987v1
- Date: Sun, 15 Feb 2026 04:47:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.589617
- Title: ATTest: Agent-Driven Tensor Testing for Deep Learning Library Modules
- Title(参考訳): ATTest: ディープラーニングライブラリモジュールのためのエージェント駆動型テンソルテスト
- Authors: Zhengyu Zhan, Ye Shang, Jiawei Liu, Chunrong Fang, Quanjun Zhang, Zhenyu Chen,
- Abstract要約: ディープラーニング(DL)ライブラリの単体テストは、複雑な数値意味論と暗黙のテンソル制約のために困難である。
本稿では,モジュールレベルの単体テスト生成のためのエージェント駆動テストフレームワークであるATTestを提案する。
- 参考スコア(独自算出の注目度): 19.355376741404267
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The unit testing of Deep Learning (DL) libraries is challenging due to complex numerical semantics and implicit tensor constraints. Traditional Search-Based Software Testing (SBST) often suffers from semantic blindness, failing to satisfy the constraints of high-dimensional tensors, whereas Large Language Models (LLMs) struggle with cross-file context and unstable code modifications. This paper proposes ATTest, an agent-driven tensor testing framework for module-level unit test generation. ATTest orchestrates a seven-stage pipeline, which encompasses constraint extraction and an iterative "generation-validation-repair" loop, to maintain testing stability and mitigate context-window saturation. An evaluation on PyTorch and TensorFlow demonstrates that ATTest significantly outperforms state-of-the-art baselines such as PynguinML, achieving an average branch coverage of 55.60% and 54.77%, respectively. The results illustrate how agent-driven workflows bridge the semantic gap in numerical libraries while ensuring auditable test synthesis. Source code: https://github.com/iSEngLab/ATTest.git
- Abstract(参考訳): ディープラーニング(DL)ライブラリの単体テストは、複雑な数値意味論と暗黙のテンソル制約のために難しい。
従来の検索ベースソフトウェアテスト(SBST)は、高次元テンソルの制約を満たすことができないセマンティックブラインドに悩まされることが多いが、Large Language Models(LLM)はクロスファイルコンテキストと不安定なコード修正に苦慮している。
本稿では,モジュールレベルの単体テスト生成のためのエージェント駆動型テンソルテストフレームワークATTestを提案する。
ATTestは、制約抽出と反復的な"ジェネレーション・バリデーション・リペア"ループを含む7段階のパイプラインをオーケストレーションし、テストの安定性を維持し、コンテキスト・ウィンドウの飽和を緩和する。
PyTorchとTensorFlowの評価によると、ATTestはPynguinMLのような最先端のベースラインを大幅に上回り、それぞれ55.60%と54.77%の平均ブランチカバレッジを達成した。
その結果、エージェント駆動ワークフローが数値ライブラリのセマンティックギャップを橋渡しし、監査可能なテスト合成を保証する方法が示されている。
ソースコード:https://github.com/iSEngLab/ATTest.git
関連論文リスト
- VibeTensor: System Software for Deep Learning, Fully Generated by AI Agents [42.56489784841984]
実装の変更が生成され、エージェントが提案する差分として適用される。
アーキテクチャを説明し、システムの生成と検証に使用するワークフローを要約し、アーティファクトを評価する。
論文 参考訳(メタデータ) (2026-01-21T19:29:00Z) - Constraint-Guided Unit Test Generation for Machine Learning Libraries [8.883254370291256]
PyTorchやtensorといった機械学習(ML)ライブラリは、幅広い現代的なアプリケーションに必須である。
テストを通じてMLライブラリの正しさを保証することが重要です。
本稿では,これらの制約を活用するためにPynguinテストジェネレータを改善するアプローチであるPynguinMLを提案する。
論文 参考訳(メタデータ) (2025-10-10T08:02:15Z) - Rethinking Testing for LLM Applications: Characteristics, Challenges, and a Lightweight Interaction Protocol [83.83217247686402]
大言語モデル(LLM)は、単純なテキストジェネレータから、検索強化、ツール呼び出し、マルチターンインタラクションを統合する複雑なソフトウェアシステムへと進化してきた。
その固有の非決定主義、ダイナミズム、文脈依存は品質保証に根本的な課題をもたらす。
本稿では,LLMアプリケーションを3層アーキテクチャに分解する: textbftextitSystem Shell Layer, textbftextitPrompt Orchestration Layer, textbftextitLLM Inference Core。
論文 参考訳(メタデータ) (2025-08-28T13:00:28Z) - Alignment with Fill-In-the-Middle for Enhancing Code Generation [56.791415642365415]
コードスニペットを小さな粒度のブロックに分割し,同じテストケースからより多様なDPOペアを生成する手法を提案する。
提案手法は,HumanEval (+), MBPP (+), APPS, LiveCodeBench, BigCodeBenchといったベンチマークデータセットの実験によって検証された,コード生成タスクの大幅な改善を示す。
論文 参考訳(メタデータ) (2025-08-27T03:15:53Z) - SWE-Flow: Synthesizing Software Engineering Data in a Test-Driven Manner [53.54568352375669]
テスト駆動開発(TDD)に基づく新しいデータ合成フレームワーク**SWE-Flow*を紹介します。
人為的な問題に依存する既存のソフトウェアエンジニアリングデータとは異なり、**SWE-Flow*は、単体テストから直接インクリメンタルな開発ステップを推論する。
私たちは現実のGitHubプロジェクトから16,061のトレーニングインスタンスと2,020のテストインスタンスを生成し、**SWE-Flow-Eval**ベンチマークを作成しました。
論文 参考訳(メタデータ) (2025-06-10T17:23:33Z) - Commit0: Library Generation from Scratch [77.38414688148006]
Commit0は、AIエージェントにスクラッチからライブラリを書くよう促すベンチマークである。
エージェントには、ライブラリのAPIを概説する仕様文書と、インタラクティブなユニットテストスイートが提供されている。
Commit0はまた、モデルが生成したコードに対して静的解析と実行フィードバックを受け取る、インタラクティブな環境も提供する。
論文 参考訳(メタデータ) (2024-12-02T18:11:30Z) - STAMP: Outlier-Aware Test-Time Adaptation with Stable Memory Replay [76.06127233986663]
テスト時間適応(TTA)は、トレーニングデータとテストデータの間の分散シフトに、未ラベルのデータのみを用いて対処することを目的としている。
本稿では,サンプル認識とオフリエ拒絶の両方を行う問題に注意を払っている。
本稿では,STAble Memory rePlay (STAMP) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-22T16:25:41Z) - Fix the Tests: Augmenting LLMs to Repair Test Cases with Static Collector and Neural Reranker [9.428021853841296]
本稿では, TROCtxsの精密かつ高精度な構築により, 旧来の検査ケースを自動的に修復する新しい手法であるSynTERを提案する。
構築されたTROCtxの増強により、幻覚は57.1%減少する。
論文 参考訳(メタデータ) (2024-07-04T04:24:43Z) - Enhancing Differential Testing With LLMs For Testing Deep Learning Libraries [8.779035160734523]
本稿では,DLライブラリのためのLLM強化差分試験手法を提案する。
与えられたAPIの代替実装を見つけ、多様なテストインプットを生成するという課題に対処する。
最先端技術で見られるAPIの1.84倍の数のAPIを合成する。
論文 参考訳(メタデータ) (2024-06-12T07:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。