論文の概要: GovBench: Benchmarking LLM Agents for Real-World Data Governance Workflows
- arxiv url: http://arxiv.org/abs/2512.04416v1
- Date: Thu, 04 Dec 2025 03:25:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:45.969904
- Title: GovBench: Benchmarking LLM Agents for Real-World Data Governance Workflows
- Title(参考訳): GovBench: リアルタイムデータガバナンスワークフローのためのLLMエージェントのベンチマーク
- Authors: Zhou Liu, Zhaoyang Han, Guochen Yan, Hao Liang, Bohan Zeng, Xing Chen, Yuanfeng Song, Wentao Zhang,
- Abstract要約: GovBenchは、実際のケースのデータに基づいて構築された、現実シナリオに基盤を置く150の多様なタスクを特徴とするベンチマークである。
我々は,制約に基づく計画を統合するPlanner-Executor-Evaluatorアーキテクチャを利用したフレームワークであるDataGovAgentを提案する。
実験の結果,DataGovAgentは複雑なタスクにおける平均タスクスコア(ATS)を大幅に向上させることがわかった。
- 参考スコア(独自算出の注目度): 22.16698382751559
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data governance ensures data quality, security, and compliance through policies and standards, a critical foundation for scaling modern AI development. Recently, large language models (LLMs) have emerged as a promising solution for automating data governance by translating user intent into executable transformation code. However, existing benchmarks for automated data science often emphasize snippet-level coding or high-level analytics, failing to capture the unique challenge of data governance: ensuring the correctness and quality of the data itself. To bridge this gap, we introduce GovBench, a benchmark featuring 150 diverse tasks grounded in real-world scenarios, built on data from actual cases. GovBench employs a novel "reversed-objective" methodology to synthesize realistic noise and utilizes rigorous metrics to assess end-to-end pipeline reliability. Our analysis on GovBench reveals that current models struggle with complex, multi-step workflows and lack robust error-correction mechanisms. Consequently, we propose DataGovAgent, a framework utilizing a Planner-Executor-Evaluator architecture that integrates constraint-based planning, retrieval-augmented generation, and sandboxed feedback-driven debugging. Experimental results show that DataGovAgent significantly boosts the Average Task Score (ATS) on complex tasks from 39.7 to 54.9 and reduces debugging iterations by over 77.9 percent compared to general-purpose baselines.
- Abstract(参考訳): データガバナンスは、最新のAI開発をスケールするための重要な基盤であるポリシーと標準を通じて、データ品質、セキュリティ、コンプライアンスを保証する。
近年,ユーザ意図を実行可能な変換コードに変換することで,データガバナンスを自動化するための有望なソリューションとして,大規模言語モデル(LLM)が登場している。
しかし、既存の自動データサイエンスのベンチマークでは、スニペットレベルのコーディングやハイレベルな分析が強調され、データガバナンスのユニークな課題であるデータの正確性と品質の確保に失敗することが多い。
このギャップを埋めるために、実際のケースのデータに基づいて構築された150の多様なタスクをベースとしたベンチマークであるGovBenchを紹介した。
GovBenchは、現実的なノイズを合成するために、新しい"リバース・オブジェクティブ(reversed-jective)"方法論を採用し、厳密なメトリクスを使用してエンドツーエンドパイプラインの信頼性を評価する。
GovBenchの分析から、現在のモデルでは複雑なマルチステップワークフローに苦労し、堅牢なエラー訂正機構が欠如していることが分かる。
そこで我々は,制約ベースの計画,検索拡張生成,サンドボックスによるフィードバック駆動デバッグを統合した,Planner-Executor-Evaluatorアーキテクチャを利用したDataGovAgentを提案する。
実験の結果、DataGovAgentは複雑なタスクの平均タスクスコア(ATS)を39.7から54.9に大幅に向上し、汎用ベースラインに比べて77.9%以上のデバッグイテレーションを削減した。
関連論文リスト
- How Can Input Reformulation Improve Tool Usage Accuracy in a Complex Dynamic Environment? A Study on $τ$-bench [58.114899897566964]
マルチターンの会話環境では、大きな言語モデル(LLM)は、一貫性のある推論とドメイン固有のポリシーへの固執にしばしば苦労する。
本稿では,関連するドメインルールを付加したユーザクエリを自動的に再構成するIRMA(Input-Reformulation Multi-Agent)フレームワークを提案する。
IRMAはReAct、Function Calling、Self-Reflectionをそれぞれ16.1%、12.7%、19.1%で大きく上回っている。
論文 参考訳(メタデータ) (2025-08-28T15:57:33Z) - NatureGAIA: Pushing the Frontiers of GUI Agents with a Challenging Benchmark and High-Quality Trajectory Dataset [16.676904484703]
本稿ではCausal Pathwaysの原理に基づく新しいベンチマークであるNaturalGAIAを紹介する。
このパラダイムは複雑なタスクを検証可能な一連の原子ステップに構造化し、厳密で完全に自動化され、再現可能な評価基準を保証する。
次に、このデータセットを用いて、Q2.5-VL-7Bモデル上でReinforcement FineTuning(RFT)を行う。
論文 参考訳(メタデータ) (2025-08-02T11:53:41Z) - DABstep: Data Agent Benchmark for Multi-step Reasoning [2.6709582216950767]
DABstepは、現実的なマルチステップデータ分析タスクでAIエージェントを評価するための新しいベンチマークである。
ファイナンシャル・アナリティクス・プラットフォームから派生した450以上の現実世界の課題で構成されている。
Dabstepは、自律的なデータ分析の研究を加速するために、公開のリーダーボードとツールキットと共にリリースされた。
論文 参考訳(メタデータ) (2025-06-30T10:49:21Z) - DataSciBench: An LLM Agent Benchmark for Data Science [33.3811507234528]
DataSciBenchは、データサイエンスにおけるLarge Language Model(LLM)の機能を評価するためのベンチマークである。
我々は、グラウンド・真実(GT)を生成し、評価指標を検証するための半自動パイプラインを開発した。
我々は、各コード実行結果を評価する革新的なTask-Function-Codeフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-19T17:31:51Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - DCA-Bench: A Benchmark for Dataset Curation Agents [9.60250892491588]
不完全なドキュメンテーション、不正確なラベル、倫理的懸念、時代遅れの情報といったデータ品質問題は、広く使われているデータセットで共通している。
大きな言語モデル(LLM)の急増する能力により、LLMエージェントによる隠れデータセット問題の発見の合理化が約束されている。
本研究では,この課題に対処するLLMエージェントの能力を評価するためのベンチマークを確立する。
論文 参考訳(メタデータ) (2024-06-11T14:02:23Z) - Automating Dataset Updates Towards Reliable and Timely Evaluation of Large Language Models [81.27391252152199]
大規模言語モデル(LLM)は、さまざまな自然言語ベンチマークで素晴らしいパフォーマンスを実現している。
本稿では、データセットの自動更新と、その有効性に関する体系的な分析を提案する。
1) 類似したサンプルを生成するための戦略を模倣すること,2) 既存のサンプルをさらに拡張する戦略を拡張すること,である。
論文 参考訳(メタデータ) (2024-02-19T07:15:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。