論文の概要: AvalancheBench: Evaluating Enterprise Data Agents Through Latent World Recovery
- arxiv url: http://arxiv.org/abs/2605.24183v1
- Date: Fri, 22 May 2026 20:16:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:17.728558
- Title: AvalancheBench: Evaluating Enterprise Data Agents Through Latent World Recovery
- Title(参考訳): AvalancheBench: 潜伏した世界回復を通じてエンタープライズデータエージェントを評価する
- Authors: Darek Kleczek, Fuheng Zhao, Alexander W. Lee, Julien Tissier, Pawel Liskowski, Ugur Cetintemel, Anupam Datta,
- Abstract要約: AvalancheBenchは、Emphlatent World Recoveryを通じてエンタープライズデータエージェントを評価するためのベンチマーク
パイプライン補完よりも分析的理解を評価する。
既知の潜伏世界から観測結果を生成し、不完全だが有効な回復のための部分的な信用を可能にする。
- 参考スコア(独自算出の注目度): 36.56945581753333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce AvalancheBench, a benchmark for evaluating enterprise data agents through \emph{latent world recovery}. AvalancheBench improves on existing benchmarks in three ways. First, it evaluates analytical understanding rather than pipeline completion: systems are scored on whether they recover the segments, drivers, temporal events, and relationships that explain the data, not merely on whether they execute a workflow or produce a plausible report. Second, it provides ground truth for goal-driven analytics by generating observations from a known latent world, enabling partial credit for incomplete but valid recoveries. Third, it exposes how early analytical mistakes propagate into later conclusions: missed segments, merged events, or wrong attributions can lead to systematically wrong recommendations. In this sense, AvalancheBench complements real-data benchmarks by providing a controlled setting for diagnosing whether agents recover the analytical structure behind enterprise data. On a first e-commerce use case, the strongest configuration of a leading coding agent recovers only 26\% of the rubric, with failures concentrated in generic customer segmentations and merged temporal events.
- Abstract(参考訳): 本稿では,企業データエージェント評価のためのベンチマークであるAvalancheBenchを紹介する。
AvalancheBenchは既存のベンチマークを3つの方法で改善する。
まず、パイプラインの補完よりも分析的な理解を評価する。システムは、ワークフローを実行するか、あるいは妥当なレポートを生成するかではなく、セグメント、ドライバ、時間的イベント、データを説明する関係を回復するかどうかに基づいてスコア付けされる。
第2に、既知の潜伏世界から観測結果を生成し、不完全だが有効な回復のための部分的信用を可能にすることで、ゴール駆動分析の基礎となる真実を提供する。
第3に、初期の分析ミスが後続の結論にどのように伝播するかを明らかにしている。 セグメントの欠落、統合イベント、誤った属性は、体系的に間違ったレコメンデーションをもたらす可能性がある。
この意味で、AvalancheBenchは、エージェントがエンタープライズデータの背後にある分析構造を回復するかどうかを診断するための制御された設定を提供することで、実データベンチマークを補完する。
最初のeコマースのユースケースでは、リードするコーディングエージェントの最も強い構成は、一般的な顧客セグメンテーションと統合された一時的なイベントに集中して、ルーブリックの26倍しか回復しない。
関連論文リスト
- From Detection to Response: A Deep Learning and Retrieval-Augmented Generation Framework for Network Intrusion Mitigation [0.7136933021609079]
本稿では,脅威検出と行動応答のギャップを埋める統一的なエンドツーエンドフレームワークを提案する。
まず、独立に訓練された3つのバイナリディープニューラルネットワーク(DNN)のアンサンブルで、ネットワークトラフィックフローをBenign, Denial of Service(DoS)またはDistributed Denial of Service(DDoS)に分類する。
第2に、Retrieval-Augmented Generation (RAG)パイプラインは、トップ5の異常な機能から説明対応プロンプトを構築する。
論文 参考訳(メタデータ) (2026-05-18T07:17:55Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - From Comprehension to Reasoning: A Hierarchical Benchmark for Automated Financial Research Reporting [19.0993436440595]
FinReasoningは、中国のリサーチレポート生成を3段階に分解するベンチマークだ。
評価結果に基づいて、FinReasoningはほとんどのモデルが理解と実行のギャップを示すことを示した。
論文 参考訳(メタデータ) (2026-02-25T13:44:58Z) - InsightBench: Evaluating Business Analytics Agents Through Multi-Step Insight Generation [79.09622602860703]
3つの重要な特徴を持つベンチマークデータセットであるInsightBenchを紹介します。
財務やインシデント管理といったさまざまなビジネスユースケースを表す100のデータセットで構成されている。
単一のクエリに回答することに焦点を当てた既存のベンチマークとは異なり、InsightBenchは、エンドツーエンドのデータ分析を実行する能力に基づいてエージェントを評価する。
論文 参考訳(メタデータ) (2024-07-08T22:06:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。