論文の概要: Generating Expressive and Customizable Evals for Timeseries Data Analysis Agents with AgentFuel
- arxiv url: http://arxiv.org/abs/2603.12483v1
- Date: Thu, 12 Mar 2026 22:01:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.787915
- Title: Generating Expressive and Customizable Evals for Timeseries Data Analysis Agents with AgentFuel
- Title(参考訳): エージェントフュールを用いた時系列データ分析エージェントの表現的・カスタマイズ可能な方程式の生成
- Authors: Aadyaa Maddi, Prakhar Naval, Deepti Mande, Shane Duan, Muckai Girish, Vyas Sekar,
- Abstract要約: 我々は、ドメイン固有のデータとクエリータイプについて、一般的なデータ分析エージェントを6つ評価する。
AgentFuelのベンチマークは、既存のデータエージェントフレームワークの改善のための重要な方向性を明らかにする。
- 参考スコア(独自算出の注目度): 5.028064206130817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Across many domains (e.g., IoT, observability, telecommunications, cybersecurity), there is an emerging adoption of conversational data analysis agents that enable users to "talk to your data" to extract insights. Such data analysis agents operate on timeseries data models; e.g., measurements from sensors or events monitoring user clicks and actions in product analytics. We evaluate 6 popular data analysis agents (both open-source and proprietary) on domain-specific data and query types, and find that they fail on stateful and incident-specific queries. We observe two key expressivity gaps in existing evals: domain-customized datasets and domain-specific query types. To enable practitioners in such domains to generate customized and expressive evals for such timeseries data agents, we present AgentFuel. AgentFuel helps domain experts quickly create customized evals to perform end-to-end functional tests. We show that AgentFuel's benchmarks expose key directions for improvement in existing data agent frameworks. We also present anecdotal evidence that using AgentFuel can improve agent performance (e.g., with GEPA). AgentFuel benchmarks are available at https://huggingface.co/datasets/RockfishData/TimeSeriesAgentEvals.
- Abstract(参考訳): 多くのドメイン(IoT、可観測性、通信、サイバーセキュリティなど)にわたって、ユーザが洞察を抽出するために“データに話しかける”ための会話データ分析エージェントが新たに採用されている。
このようなデータ分析エージェントは、例えば、センサからの計測や、製品分析におけるユーザのクリックやアクションを監視するイベントなど、タイムリーなデータモデルで動作する。
我々は、ドメイン固有のデータとクエリタイプについて6つの一般的なデータ分析エージェント(オープンソースとプロプライエタリの両方)を評価し、ステートフルでインシデント固有のクエリで失敗することを発見した。
既存のevalの2つの重要な表現力のギャップを観察する。
このようなドメインの実践者が,このようなタイムリーデータエージェントに対して,カスタマイズされた表現可能なevalを生成するために,AgentFuelを提案する。
AgentFuelは、ドメインの専門家がエンドツーエンドの機能テストを実行するためのカスタマイズされたevalを素早く作成するのに役立つ。
AgentFuelのベンチマークは、既存のデータエージェントフレームワークの改善のための重要な方向性を明らかにする。
また,AgentFuelを使用すればエージェント性能(例えばGEPA)が向上できるという逸話的証拠も提示する。
AgentFuelベンチマークはhttps://huggingface.co/datasets/RockfishData/TimeSeriesAgentEvalsで公開されている。
関連論文リスト
- Agent Data Protocol: Unifying Datasets for Diverse, Effective Fine-tuning of LLM Agents [85.02904078131682]
本稿では,エージェントデータセット間の"インターリングア"として機能する軽量表現言語であるエージェントデータプロトコル(ADP)を紹介する。
ADPはAPI/ツールの使用、ブラウジング、コーディング、ソフトウェアエンジニアリング、一般的なエージェントなど、さまざまなタスクを捉えるのに十分な表現力を持っている。
すべてのコードとデータが公開され、ADPが標準化され、スケーラブルで再現可能なエージェントトレーニングの障壁を低くすることを期待している。
論文 参考訳(メタデータ) (2025-10-28T17:53:13Z) - AgenticData: An Agentic Data Analytics System for Heterogeneous Data [12.67277567222908]
AgenticDataはエージェントデータ分析システムで、複数のドメインにまたがるデータソースを自律的に分析しながら、自然言語(NL)の質問に反応することができる。
本稿では,関連するデータを発見するためのデータプロファイリングエージェント,フィードバックに基づく反復最適化のためのセマンティッククロスバリデーションエージェント,短期文脈を維持するためのスマートメモリエージェントを利用するマルチエージェント協調戦略を提案する。
論文 参考訳(メタデータ) (2025-08-07T03:33:59Z) - AgentAda: Skill-Adaptive Data Analytics for Tailored Insight Discovery [20.730115946111756]
我々はAgentAdaを紹介した。AgentAdaは、新しい分析スキルを学び、利用して、より専門的な洞察を引き出すことができる最初の分析エージェントだ。
ユーザーがどのデータ分析方法を適用するかを手動で決める既存の方法とは異なり、AgentAdaは分析を行うために必要なスキルを自動的に識別する。
我々は、AgentAdaが既存のツールよりも洞察に富んだ分析を提供しており、48.78%が分析を好み、27.67%は未熟練のエージェントであることを示した。
論文 参考訳(メタデータ) (2025-04-10T03:27:25Z) - MAG-V: A Multi-Agent Framework for Synthetic Data Generation and Verification [5.666070277424383]
MAG-Vは、顧客のクエリを模倣する質問のデータセットを生成するフレームワークである。
我々の合成データは、実際の顧客クエリにおけるエージェントのパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2024-11-28T19:36:11Z) - InsightBench: Evaluating Business Analytics Agents Through Multi-Step Insight Generation [79.09622602860703]
3つの重要な特徴を持つベンチマークデータセットであるInsightBenchを紹介します。
財務やインシデント管理といったさまざまなビジネスユースケースを表す100のデータセットで構成されている。
単一のクエリに回答することに焦点を当てた既存のベンチマークとは異なり、InsightBenchは、エンドツーエンドのデータ分析を実行する能力に基づいてエージェントを評価する。
論文 参考訳(メタデータ) (2024-07-08T22:06:09Z) - InfiAgent-DABench: Evaluating Agents on Data Analysis Tasks [84.7788065721689]
本稿では,データ解析タスクにおけるLSMに基づくエージェントの評価に特化して設計された最初のベンチマークであるInfiAgent-DABenchを紹介する。
このベンチマークには52のCSVファイルから得られた257のデータ分析質問からなるデータセットであるDAEvalが含まれている。
エージェントフレームワーク上に構築し,DABench 上で GPT-3.5 を3.9% 上回る特殊エージェント DAAgent を開発した。
論文 参考訳(メタデータ) (2024-01-10T19:04:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。