論文の概要: InsightEval: An Expert-Curated Benchmark for Assessing Insight Discovery in LLM-Driven Data Agents
- arxiv url: http://arxiv.org/abs/2511.22884v1
- Date: Fri, 28 Nov 2025 05:19:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.773308
- Title: InsightEval: An Expert-Curated Benchmark for Assessing Insight Discovery in LLM-Driven Data Agents
- Title(参考訳): InsightEval: LLM駆動データエージェントにおけるインサイト発見を評価するためのエキスパートキュレートベンチマーク
- Authors: Zhenghao Zhu, Yuanfeng Song, Xin Chen, Chengzhong Liu, Yakun Cui, Caleb Chen Cao, Sirui Han, Yike Guo,
- Abstract要約: 我々はInsightEvalという新しいデータセットを構築するためのデータキュレーションパイプラインを開発した。
我々は、自動化された洞察発見における一般的な課題を強調し、将来の研究のガイドとなる重要な発見を提起する。
- 参考スコア(独自算出の注目度): 31.43134407708759
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data analysis has become an indispensable part of scientific research. To discover the latent knowledge and insights hidden within massive datasets, we need to perform deep exploratory analysis to realize their full value. With the advent of large language models (LLMs) and multi-agent systems, more and more researchers are making use of these technologies for insight discovery. However, there are few benchmarks for evaluating insight discovery capabilities. As one of the most comprehensive existing frameworks, InsightBench also suffers from many critical flaws: format inconsistencies, poorly conceived objectives, and redundant insights. These issues may significantly affect the quality of data and the evaluation of agents. To address these issues, we thoroughly investigate shortcomings in InsightBench and propose essential criteria for a high-quality insight benchmark. Regarding this, we develop a data-curation pipeline to construct a new dataset named InsightEval. We further introduce a novel metric to measure the exploratory performance of agents. Through extensive experiments on InsightEval, we highlight prevailing challenges in automated insight discovery and raise some key findings to guide future research in this promising direction.
- Abstract(参考訳): データ分析は科学研究にとって欠かせない部分となっている。
大量のデータセットに隠された潜伏した知識と洞察を発見するためには、その完全な価値を実現するために、深い探索分析を行う必要がある。
大規模言語モデル(LLM)やマルチエージェントシステムの出現に伴い、洞察発見にこれらの技術を活用する研究者が増えてきている。
しかし、洞察発見能力を評価するためのベンチマークはほとんどない。
最も包括的な既存のフレームワークの1つとして、InsightBenchは、フォーマットの不整合、未熟な目標、冗長な洞察など、多くの重大な欠陥に悩まされている。
これらの問題はデータの品質とエージェントの評価に大きな影響を与える可能性がある。
これらの問題に対処するため、InsightBenchの欠点を徹底的に調査し、高品質なインサイト・ベンチマークに必要な基準を提案する。
そこで我々はInsightEvalという新しいデータセットを構築するためのデータキュレーションパイプラインを開発した。
さらに,エージェントの探索性能を測定するための新しい指標を導入する。
InsightEvalに関する広範な実験を通じて、自動化された洞察発見における一般的な課題を強調し、将来的な研究をこの将来的な方向に導く上で、いくつかの重要な発見を提起する。
関連論文リスト
- DataSage: Multi-agent Collaboration for Insight Discovery with External Knowledge Retrieval, Multi-role Debating, and Multi-path Reasoning [10.04895420035484]
DataSageは、外部知識検索を組み込んだ新しいマルチエージェントフレームワークで、分析コンテキストを充実させる。
InsightBenchに関する大規模な実験は、DataSageが既存のデータインサイトエージェントをあらゆる難易度で一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-11-18T09:54:13Z) - InfoDeepSeek: Benchmarking Agentic Information Seeking for Retrieval-Augmented Generation [63.55258191625131]
InfoDeepSeekは、現実世界の動的Web環境でエージェント情報を求めるための新しいベンチマークである。
本稿では,決定性,難易度,多様性の基準を満たす課題クエリを構築するための体系的手法を提案する。
本研究では,情報探索結果の正確性,有用性,コンパクト性に関する詳細な指標を含む,動的エージェント情報探索に適した最初の評価フレームワークを開発する。
論文 参考訳(メタデータ) (2025-05-21T14:44:40Z) - Network Intrusion Datasets: A Survey, Limitations, and Recommendations [0.0]
データ駆動型サイバー脅威検出は、現代のサイバーセキュリティにおいて重要な防御技術となっている。
データの重要性にもかかわらず、その不足はNIDS研究の大きな障害として長年認識されてきた。
論文 参考訳(メタデータ) (2025-02-10T17:14:37Z) - Trustworthiness in Retrieval-Augmented Generation Systems: A Survey [59.26328612791924]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の開発において、急速に重要なパラダイムへと成長してきた。
本稿では,RAGシステムの信頼性を,事実性,堅牢性,公正性,透明性,説明責任,プライバシの6つの面で評価する統一的な枠組みを提案する。
論文 参考訳(メタデータ) (2024-09-16T09:06:44Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - Object Detectors in the Open Environment: Challenges, Solutions, and Outlook [95.3317059617271]
オープン環境のダイナミックで複雑な性質は、オブジェクト検出器に新しくて恐ろしい挑戦をもたらす。
本稿では,オープン環境におけるオブジェクト検出器の総合的なレビューと解析を行う。
データ/ターゲットの変化の次元に基づいて、4つの四分法(ドメイン外、カテゴリ外、堅牢な学習、漸進的な学習)を含むフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-24T19:32:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。