論文の概要: DRAMA: Unifying Data Retrieval and Analysis for Open-Domain Analytic Queries
- arxiv url: http://arxiv.org/abs/2510.27238v1
- Date: Fri, 31 Oct 2025 07:00:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:16.014612
- Title: DRAMA: Unifying Data Retrieval and Analysis for Open-Domain Analytic Queries
- Title(参考訳): DRAMA: オープンドメイン分析クエリのためのデータ検索と分析を統合する
- Authors: Chuxuan Hu, Maxwell Yang, James Weiland, Yeji Lim, Suhas Palawala, Daniel Kang,
- Abstract要約: DRAMAはエンド・ツー・エンドのパラダイムであり、大規模オープンドメインデータ上で自然言語でユーザーの分析クエリに答える。
DRAMAに追従して設計されたマルチエージェントシステムであるDRAMA-Botを開発した。
86.5%のタスク精度を0.05ドルで達成し、すべてのベースラインを最大6.9倍、コスト1/6以下で上回っている。
- 参考スコア(独自算出の注目度): 7.030237117873497
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Manually conducting real-world data analyses is labor-intensive and inefficient. Despite numerous attempts to automate data science workflows, none of the existing paradigms or systems fully demonstrate all three key capabilities required to support them effectively: (1) open-domain data collection, (2) structured data transformation, and (3) analytic reasoning. To overcome these limitations, we propose DRAMA, an end-to-end paradigm that answers users' analytic queries in natural language on large-scale open-domain data. DRAMA unifies data collection, transformation, and analysis as a single pipeline. To quantitatively evaluate system performance on tasks representative of DRAMA, we construct a benchmark, DRAMA-Bench, consisting of two categories of tasks: claim verification and question answering, each comprising 100 instances. These tasks are derived from real-world applications that have gained significant public attention and require the retrieval and analysis of open-domain data. We develop DRAMA-Bot, a multi-agent system designed following DRAMA. It comprises a data retriever that collects and transforms data by coordinating the execution of sub-agents, and a data analyzer that performs structured reasoning over the retrieved data. We evaluate DRAMA-Bot on DRAMA-Bench together with five state-of-the-art baseline agents. DRAMA-Bot achieves 86.5% task accuracy at a cost of $0.05, outperforming all baselines with up to 6.9 times the accuracy and less than 1/6 of the cost. DRAMA is publicly available at https://github.com/uiuc-kang-lab/drama.
- Abstract(参考訳): 実世界のデータ分析を手作業で行うことは、労働集約的で非効率である。
データサイエンスのワークフローを自動化しようとする試みは数多くあったが、既存のパラダイムやシステムは、(1)オープンドメインのデータ収集、(2)構造化データ変換、(3)解析的推論の3つの重要な機能を完全には示していない。
これらの制限を克服するため,大規模オープンドメインデータ上での自然言語解析クエリに応答するエンドツーエンドパラダイムであるDRAMAを提案する。
DRAMAはデータ収集、変換、分析を単一のパイプラインとして統合する。
DRAMAに代表されるタスクのシステム性能を定量的に評価するために、100のインスタンスからなるクレーム検証と質問応答の2つのカテゴリからなるベンチマークDRAMA-Benchを構築した。
これらのタスクは、公共の注目を集め、オープンドメインデータの検索と分析を必要とする現実世界のアプリケーションに由来する。
DRAMAに追従して設計されたマルチエージェントシステムであるDRAMA-Botを開発した。
サブエージェントの実行を調整してデータを収集・変換するデータ検索装置と、検索したデータに対して構造化推論を行うデータアナライザとを備える。
DRAMA-Bench上のDRAMA-Botと5つの最先端ベースラインエージェントの評価を行った。
DRAMA-Botは、コスト0.05で86.5%のタスク精度を達成し、すべてのベースラインを最大6.9倍、コスト1/6以下で上回っている。
DRAMAはhttps://github.com/uiuc-kang-lab/drama.comで公開されている。
関連論文リスト
- Enterprise Deep Research: Steerable Multi-Agent Deep Research for Enterprise Analytics [75.4712507893024]
Enterprise Deep Research (EDR)は、適応的なクエリ分解のためのマスタープランニングエージェントを統合するマルチエージェントシステムである。
4つの専門的な検索エージェント(General, Academic, GitHub, LinkedIn)と、データ駆動インサイトのための可視化エージェントも含まれている。
EDRは、オプショナル・イン・ザ・ループ・ステアリング・ガイダンスによる研究の方向性を反映する。
論文 参考訳(メタデータ) (2025-10-20T17:55:11Z) - DRBench: A Realistic Benchmark for Enterprise Deep Research [81.49694432639406]
DRBenchは、エンタープライズ環境で複雑でオープンなディープリサーチタスクでAIエージェントを評価するためのベンチマークである。
セールス、サイバーセキュリティ、コンプライアンスなど10のドメインにわたる15のディープリサーチタスクをリリースしています。
論文 参考訳(メタデータ) (2025-09-30T18:47:20Z) - DS-STAR: Data Science Agent via Iterative Planning and Verification [40.515508991802825]
DS-STARは,様々なデータフォーマットからコンテキストを自動探索し抽出する新しいデータサイエンスエージェントである。
具体的には,(1)非構造化型を含む多種多様なデータ形式からコンテキストを自動的に探索・抽出するデータファイル解析モジュール,(2)LLMベースの審査員が各段階で解析計画の十分性を評価する検証ステップ,(3)単純で実行可能な計画から始まる逐次計画機構,(3)DS-STARの満足度が検証されるまでそのフィードバックに基づいて反復的に洗練する。
論文 参考訳(メタデータ) (2025-09-26T03:38:12Z) - DABstep: Data Agent Benchmark for Multi-step Reasoning [2.6709582216950767]
DABstepは、現実的なマルチステップデータ分析タスクでAIエージェントを評価するための新しいベンチマークである。
ファイナンシャル・アナリティクス・プラットフォームから派生した450以上の現実世界の課題で構成されている。
Dabstepは、自律的なデータ分析の研究を加速するために、公開のリーダーボードとツールキットと共にリリースされた。
論文 参考訳(メタデータ) (2025-06-30T10:49:21Z) - KramaBench: A Benchmark for AI Systems on Data-to-Insight Pipelines over Data Lakes [17.76903247601012]
104個の実世界のデータサイエンスパイプラインを手作業でキュレートしたベンチマークであるKRAMABENCHを紹介する。
これらのパイプラインは、データ処理におけるAIシステムのエンドツーエンド機能をテストする。
以上の結果から,既存のアウト・オブ・ボックスモデルでは,適切なデータサイエンスコード生成タスクを十分に解決できるが,既存のアウト・オブ・ボックスモデルでは不十分であることが示唆された。
論文 参考訳(メタデータ) (2025-06-06T21:18:45Z) - FABLE: A Novel Data-Flow Analysis Benchmark on Procedural Text for Large Language Model Evaluation [5.866040886735852]
FABLEは、構造化された手続き型テキストを用いて、大規模言語モデルのデータフロー理解を評価するために設計されたベンチマークである。
推論中心モデル(DeepSeek-R1 8B)、汎用モデル(LLaMA 3.1 8B)、コード固有モデル(Granite Code 8B)の3種類を評価した。
その結果,推理モデルでは精度が向上するが,他のモデルに比べて20倍以上の推論が遅くなることがわかった。
論文 参考訳(メタデータ) (2025-05-30T06:32:34Z) - InfiAgent-DABench: Evaluating Agents on Data Analysis Tasks [84.7788065721689]
本稿では,データ解析タスクにおけるLSMに基づくエージェントの評価に特化して設計された最初のベンチマークであるInfiAgent-DABenchを紹介する。
このベンチマークには52のCSVファイルから得られた257のデータ分析質問からなるデータセットであるDAEvalが含まれている。
エージェントフレームワーク上に構築し,DABench 上で GPT-3.5 を3.9% 上回る特殊エージェント DAAgent を開発した。
論文 参考訳(メタデータ) (2024-01-10T19:04:00Z) - Scaling Systematic Literature Reviews with Machine Learning Pipelines [57.82662094602138]
体系的なレビューは、科学的文書からデータを抽出する。
これらの側面をそれぞれ自動化するパイプラインを構築し、多くの人間時間対システム品質トレードオフを実験します。
人間の専門的アノテーションの2週間だけで、パイプラインシステム全体の驚くほどの精度と一般性が得られることが分かりました。
論文 参考訳(メタデータ) (2020-10-09T16:19:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。