論文の概要: PrismaDV: Automated Task-Aware Data Unit Test Generation
- arxiv url: http://arxiv.org/abs/2604.21765v1
- Date: Thu, 23 Apr 2026 15:18:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.678464
- Title: PrismaDV: Automated Task-Aware Data Unit Test Generation
- Title(参考訳): PrismaDV: タスク対応データユニット自動テスト生成
- Authors: Hao Chen, Arnab Phani, Sebastian Schelter,
- Abstract要約: 本稿では、データアクセスパターンを特定するために、データセットプロファイルとともに下流タスクコードを解析する複合AIシステムPrismaDVを提案する。
本稿では,データ・ユニット・テストの実行から得られる少ない結果を活用するプロンプト最適化フレームワーク「SIFTA(Selective Informative Feedback for Task Adaptation)」を提案する。
SIFTAではPrismaDVのモジュールのプロンプトが手書きやジェネリックプロンプトから生成されるプロンプトより優れていることを示す。
- 参考スコア(独自算出の注目度): 12.701705182273997
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data is a central resource for modern enterprises, and data validation is essential for ensuring the reliability of downstream applications. However, existing automated data unit testing frameworks are largely task-agnostic: they validate datasets without considering the semantics and requirements of the code that consumes the data. We present PrismaDV, a compound AI system that analyzes downstream task code together with dataset profiles to identify data access patterns, infer implicit data assumptions, and generate task-aware executable data unit tests. To further adapt the data unit tests over time to specific datasets and downstream tasks, we propose "Selective Informative Feedback for Task Adaptation" (SIFTA), a prompt-optimization framework that leverages the scarce outcomes from the execution of data unit tests and downstream tasks. We evaluate PrismaDV on two new benchmarks spanning 60 tasks across five datasets, where it consistently outperforms both task-agnostic and task-aware baselines in generating unit tests that reflect the end-to-end impact of data errors. Furthermore, we show that with SIFTA, we can automatically learn prompts for PrismaDV's modules that outperform prompts written by hand or generated from a generic prompt optimizer. We publicly release our benchmarks and prototype implementation.
- Abstract(参考訳): データは現代企業にとって中心的なリソースであり、下流アプリケーションの信頼性を確保するためにはデータ検証が不可欠である。
しかし、既存の自動データユニットテスティングフレームワークは、主にタスクに依存しない。データを使用するコードのセマンティクスや要件を考慮せずにデータセットを検証する。
本研究では、データアクセスパターンを特定し、暗黙的なデータ仮定を推論し、タスク認識可能なデータユニットテストを生成するために、データセットプロファイルとともに下流タスクコードを解析する複合AIシステムPrismaDVを提案する。
特定のデータセットやダウンストリームタスクに時間をかけてデータユニットテストを適用するために、データユニットテストとダウンストリームタスクの実行から不足した結果を活用するプロンプト最適化フレームワークであるSIFTA(Selective Informative Feedback for Task Adaptation)を提案する。
われわれはPrismaDVを5つのデータセットにまたがる60のタスクにまたがる2つの新しいベンチマークで評価した。
さらに、SIFTAでは、手書きのプロンプトやジェネリックプロンプトオプティマイザから生成されるプロンプトよりも優れたプリズマDVモジュールのプロンプトを自動的に学習できることを示す。
ベンチマークとプロトタイプの実装を公開しています。
関連論文リスト
- DSGym: A Holistic Framework for Evaluating and Training Data Science Agents [38.72287521565312]
DSGymは、自己完結型実行環境におけるデータサイエンスエージェントの評価とトレーニングのための標準化されたフレームワークである。
静的ベンチマークとは異なり、DSGymは、タスクやエージェントの足場、ツールを簡単に追加し、それをライブのテストベッドとして配置するモジュールアーキテクチャを提供する。
2,000サンプルのトレーニングセットを構築し,標準解析ベンチマークでGPT-4oを上回ったDSGymの4Bモデルを訓練した。
論文 参考訳(メタデータ) (2026-01-22T22:03:29Z) - DataGovBench: Benchmarking LLM Agents for Real-World Data Governance Workflows [22.16698382751559]
大規模言語モデル(LLM)は、ユーザの意図をコードに変換することによって、データガバナンスを自動化するための有望なソリューションとして登場した。
既存の自動データサイエンスのベンチマークでは、スニペットレベルのコーディングや高レベルの分析が強調されることが多い。
データGovBenchは、実際のケースのデータに基づいて構築された、現実世界のシナリオに基盤を置く150の多様なタスクを特徴とするベンチマークです。
論文 参考訳(メタデータ) (2025-12-04T03:25:12Z) - ReSpec: Relevance and Specificity Grounded Online Filtering for Learning on Video-Text Data Streams [57.080448177724264]
ビデオテキストデータは、トレーニング中のストレージと計算の課題を示す。
ReSpec(Relevance and Specificity-based online filtering framework)を提案する。
ターゲットのタスクデータから参照ポイントを確立することで、ReSpecは受信したデータをリアルタイムでフィルタリングし、広範なストレージと計算の必要性をなくす。
論文 参考訳(メタデータ) (2025-04-21T06:02:03Z) - BIASINSPECTOR: Detecting Bias in Structured Data through LLM Agents [27.159150467166732]
本稿では,構造化データの自動バイアス検出のための,エンド・ツー・エンドのマルチエージェント・シナジー・フレームワークBIASINSPECTORを紹介する。
まず、ユーザが特定した偏見検出タスクを分析し、多種多様なツールセットで実装する多段階計画を開発した。
構造化データのバイアス検出において、例外的な全体的なパフォーマンスを実現し、より公平なデータアプリケーションのための新しいマイルストーンを設定します。
論文 参考訳(メタデータ) (2025-04-07T09:12:00Z) - DCA-Bench: A Benchmark for Dataset Curation Agents [9.60250892491588]
不完全なドキュメンテーション、不正確なラベル、倫理的懸念、時代遅れの情報といったデータ品質問題は、広く使われているデータセットで共通している。
大きな言語モデル(LLM)の急増する能力により、LLMエージェントによる隠れデータセット問題の発見の合理化が約束されている。
本研究では,この課題に対処するLLMエージェントの能力を評価するためのベンチマークを確立する。
論文 参考訳(メタデータ) (2024-06-11T14:02:23Z) - Automating Dataset Updates Towards Reliable and Timely Evaluation of Large Language Models [81.27391252152199]
大規模言語モデル(LLM)は、さまざまな自然言語ベンチマークで素晴らしいパフォーマンスを実現している。
本稿では、データセットの自動更新と、その有効性に関する体系的な分析を提案する。
1) 類似したサンプルを生成するための戦略を模倣すること,2) 既存のサンプルをさらに拡張する戦略を拡張すること,である。
論文 参考訳(メタデータ) (2024-02-19T07:15:59Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - Intermediate Training on Question Answering Datasets Improves Generative
Data Augmentation [32.83012699501051]
我々は、コンテキスト生成タスクとしてデータ生成を定式化することにより、生成データ拡張を改善する。
ダウンストリームタスクを質問応答形式に投入し、微調整されたコンテキストジェネレータをターゲットタスク領域に適応させる。
少数ショット、ゼロショット設定で、パフォーマンスが大幅に改善されたことを実証します。
論文 参考訳(メタデータ) (2022-05-25T09:28:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。