論文の概要: ConDABench: Interactive Evaluation of Language Models for Data Analysis
- arxiv url: http://arxiv.org/abs/2510.13835v1
- Date: Fri, 10 Oct 2025 15:54:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.459123
- Title: ConDABench: Interactive Evaluation of Language Models for Data Analysis
- Title(参考訳): ConDABench: データ分析のための言語モデルの相互評価
- Authors: Avik Dutta, Priyanshu Gupta, Hosein Hasanbeig, Rahul Pratap Singh, Harshit Nigam, Sumit Gulwani, Arjun Radhakrishna, Gustavo Soares, Ashish Tiwari,
- Abstract要約: 本稿では,会話データ分析(ConDA)ベンチマークを作成し,外部ツールを評価するフレームワークであるConDABenchを紹介する。
ベンチは、(a)パブリックデータセットから得られた洞察を記述した記事から現実的なベンチマークを生成するマルチエージェントワークフロー、(b)このワークフローを使用して生成された1,420のConDA問題、(c)最初に、生成されたConDA問題に基づいて会話データ分析ツールを体系的に評価できる評価ハーネスで構成されています。
- 参考スコア(独自算出の注目度): 10.177407781044279
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world data analysis tasks often come with under-specified goals and unclean data. User interaction is necessary to understand and disambiguate a user's intent, and hence, essential to solving these complex tasks. Existing benchmarks for evaluating LLMs on data analysis tasks do not capture these complexities or provide first-class support for interactivity. We introduce ConDABench, a framework for generating conversational data analysis (ConDA) benchmarks and evaluating external tools on the generated benchmarks. \bench consists of (a) a multi-agent workflow for generating realistic benchmarks from articles describing insights gained from public datasets, (b) 1,420 ConDA problems generated using this workflow, and (c) an evaluation harness that, for the first time, makes it possible to systematically evaluate conversational data analysis tools on the generated ConDA problems. Evaluation of state-of-the-art LLMs on the benchmarks reveals that while the new generation of models are better at solving more instances, they are not necessarily better at solving tasks that require sustained, long-form engagement. ConDABench is an avenue for model builders to measure progress towards truly collaborative models that can complete complex interactive tasks.
- Abstract(参考訳): 実世界のデータ分析タスクは、しばしば未定の目標と不適切なデータによって行われる。
ユーザのインタラクションは、ユーザの意図を理解し、曖昧にするために必要である。
データ解析タスク上でLCMを評価するための既存のベンチマークは、これらの複雑さを捉えたり、対話性に対するファーストクラスのサポートを提供したりすることはない。
ConDABenchは、会話データ分析(ConDA)ベンチマークを生成し、生成されたベンチマーク上で外部ツールを評価するためのフレームワークである。
\bench (複数形 \benchs)
(a)公開データセットから得られる洞察を記述した記事からリアルなベンチマークを生成するためのマルチエージェントワークフロー。
(b)このワークフローを用いて生成された1,420のConDA問題
(c) 生成したConDA問題に対して,対話型データ解析ツールを系統的に評価できる評価手法を初めて提供する。
ベンチマークによる最先端のLCMの評価は、新しい世代のモデルはより多くのインスタンスを解くのに優れているが、持続的で長期にわたるエンゲージメントを必要とするタスクを解くのに必ずしも優れているとは限らないことを示している。
ConDABenchは、複雑な対話的なタスクを完了できる真に協調的なモデルに向けた進捗を測定するための、モデルビルダーのための道です。
関連論文リスト
- CoDA: Agentic Systems for Collaborative Data Visualization [57.270599188947294]
深層研究はデータ分析に革命をもたらしたが、データサイエンティストは依然として手作業による視覚化にかなりの時間を費やしている。
単純なシングルエージェントシステムやマルチエージェントシステムを含む既存のアプローチは、しばしばタスクを単純化する。
本稿では,メタデータ分析,タスク計画,コード生成,自己回帰に特殊なLLMエージェントを利用するマルチエージェントシステムであるCoDAを紹介する。
論文 参考訳(メタデータ) (2025-10-03T17:30:16Z) - Can LLMs Reason Structurally? An Evaluation via the Lens of Data Structures [21.390740746718947]
DSR-Benchは,大規模言語モデルの構造的推論を体系的に評価する最初のベンチマークである。
ベンチマークは、20のデータ構造、35の操作、および、最小限の汚染で合成生成された4,140の問題インスタンスにまたがる。
論文 参考訳(メタデータ) (2025-05-29T23:24:53Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - Dynamic benchmarking framework for LLM-based conversational data capture [0.0]
本稿では,大規模言語モデル(LLM)を評価するためのベンチマークフレームワークを提案する。
生成エージェントシミュレーションを統合して、情報抽出、コンテキスト認識、適応エンゲージメントといった重要次元のパフォーマンスを評価する。
その結果,不明瞭な応答を扱う場合,適応戦略によりデータの抽出精度が向上することが示唆された。
論文 参考訳(メタデータ) (2025-02-04T15:47:47Z) - NeedleBench: Evaluating LLM Retrieval and Reasoning Across Varying Information Densities [51.07379913779232]
NeedleBenchは、長いコンテキストタスクにおける検索と推論のパフォーマンスを評価するためのフレームワークである。
モデルの機能を厳格にテストするために、キーデータポイントをさまざまな深さに埋め込む。
実験の結果,Deep-R1やOpenAIのo3のような推論モデルは,情報密度シナリオにおける連続的な検索と推論に苦労していることがわかった。
論文 参考訳(メタデータ) (2024-07-16T17:59:06Z) - InsightBench: Evaluating Business Analytics Agents Through Multi-Step Insight Generation [79.09622602860703]
3つの重要な特徴を持つベンチマークデータセットであるInsightBenchを紹介します。
財務やインシデント管理といったさまざまなビジネスユースケースを表す100のデータセットで構成されている。
単一のクエリに回答することに焦点を当てた既存のベンチマークとは異なり、InsightBenchは、エンドツーエンドのデータ分析を実行する能力に基づいてエージェントを評価する。
論文 参考訳(メタデータ) (2024-07-08T22:06:09Z) - Analytical Engines With Context-Rich Processing: Towards Efficient
Next-Generation Analytics [12.317930859033149]
我々は、文脈に富む分析を可能にするコンポーネントと協調して最適化された分析エンジンを構想する。
我々は、リレーショナルおよびモデルベース演算子間の総括的なパイプラインコストとルールベースの最適化を目指している。
論文 参考訳(メタデータ) (2022-12-14T21:46:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。