Fugu-MT 論文翻訳(概要): InsightEval: An Expert-Curated Benchmark for Assessing Insight Discovery in LLM-Driven Data Agents

論文の概要: InsightEval: An Expert-Curated Benchmark for Assessing Insight Discovery in LLM-Driven Data Agents

arxiv url: http://arxiv.org/abs/2511.22884v1
Date: Fri, 28 Nov 2025 05:19:24 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-01 19:47:55.773308
Title: InsightEval: An Expert-Curated Benchmark for Assessing Insight Discovery in LLM-Driven Data Agents
Title（参考訳）: InsightEval: LLM駆動データエージェントにおけるインサイト発見を評価するためのエキスパートキュレートベンチマーク
Authors: Zhenghao Zhu, Yuanfeng Song, Xin Chen, Chengzhong Liu, Yakun Cui, Caleb Chen Cao, Sirui Han, Yike Guo,
Abstract要約: 我々はInsightEvalという新しいデータセットを構築するためのデータキュレーションパイプラインを開発した。我々は、自動化された洞察発見における一般的な課題を強調し、将来の研究のガイドとなる重要な発見を提起する。
参考スコア（独自算出の注目度）: 31.43134407708759
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Data analysis has become an indispensable part of scientific research. To discover the latent knowledge and insights hidden within massive datasets, we need to perform deep exploratory analysis to realize their full value. With the advent of large language models (LLMs) and multi-agent systems, more and more researchers are making use of these technologies for insight discovery. However, there are few benchmarks for evaluating insight discovery capabilities. As one of the most comprehensive existing frameworks, InsightBench also suffers from many critical flaws: format inconsistencies, poorly conceived objectives, and redundant insights. These issues may significantly affect the quality of data and the evaluation of agents. To address these issues, we thoroughly investigate shortcomings in InsightBench and propose essential criteria for a high-quality insight benchmark. Regarding this, we develop a data-curation pipeline to construct a new dataset named InsightEval. We further introduce a novel metric to measure the exploratory performance of agents. Through extensive experiments on InsightEval, we highlight prevailing challenges in automated insight discovery and raise some key findings to guide future research in this promising direction.
Abstract（参考訳）: データ分析は科学研究にとって欠かせない部分となっている。大量のデータセットに隠された潜伏した知識と洞察を発見するためには、その完全な価値を実現するために、深い探索分析を行う必要がある。大規模言語モデル(LLM)やマルチエージェントシステムの出現に伴い、洞察発見にこれらの技術を活用する研究者が増えてきている。しかし、洞察発見能力を評価するためのベンチマークはほとんどない。最も包括的な既存のフレームワークの1つとして、InsightBenchは、フォーマットの不整合、未熟な目標、冗長な洞察など、多くの重大な欠陥に悩まされている。これらの問題はデータの品質とエージェントの評価に大きな影響を与える可能性がある。これらの問題に対処するため、InsightBenchの欠点を徹底的に調査し、高品質なインサイト・ベンチマークに必要な基準を提案する。そこで我々はInsightEvalという新しいデータセットを構築するためのデータキュレーションパイプラインを開発した。さらに,エージェントの探索性能を測定するための新しい指標を導入する。 InsightEvalに関する広範な実験を通じて、自動化された洞察発見における一般的な課題を強調し、将来的な研究をこの将来的な方向に導く上で、いくつかの重要な発見を提起する。

関連論文リスト

BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing? [61.247730037229815]
BeyondSWEは2つの軸 – 解像度スコープと知識スコープ – に沿って既存の評価を拡張する包括的なベンチマークです。外部知識の役割を解明するために,ディープ検索とコーディング能力を統合するフレームワークであるSearchSWEを開発した。この作業は、現実的で挑戦的な評価ベンチマークと、より有能なコードエージェントに向けた研究を進めるための柔軟なフレームワークの両方を提供する。
論文参考訳（メタデータ） (2026-03-03T17:52:01Z)
Hunt Instead of Wait: Evaluating Deep Data Research on Large Language Models [19.85460397012729]
エージェント型大規模言語モデルに対するエージェンシーの期待は、目標を設定し、何を探索するかを決めるために自主性を必要とする、正しく答える以上のものだ。我々は、この調査インテリジェンスを、単に割り当てられたタスクを完了させる実行インテリジェンスと区別して、定義する。これを解決するために、LLMがデータベースから重要な洞察を自律的に抽出するオープンなタスクであるDeep Data Research (DDR)と、検証可能な評価を可能にする大規模なチェックリストベースのベンチマークであるDDR-Benchを紹介する。
論文参考訳（メタデータ） (2026-02-02T12:36:57Z)
DataSage: Multi-agent Collaboration for Insight Discovery with External Knowledge Retrieval, Multi-role Debating, and Multi-path Reasoning [10.04895420035484]
DataSageは、外部知識検索を組み込んだ新しいマルチエージェントフレームワークで、分析コンテキストを充実させる。 InsightBenchに関する大規模な実験は、DataSageが既存のデータインサイトエージェントをあらゆる難易度で一貫して上回っていることを示している。
論文参考訳（メタデータ） (2025-11-18T09:54:13Z)
InfoDeepSeek: Benchmarking Agentic Information Seeking for Retrieval-Augmented Generation [63.55258191625131]
InfoDeepSeekは、現実世界の動的Web環境でエージェント情報を求めるための新しいベンチマークである。本稿では,決定性,難易度,多様性の基準を満たす課題クエリを構築するための体系的手法を提案する。本研究では,情報探索結果の正確性,有用性,コンパクト性に関する詳細な指標を含む,動的エージェント情報探索に適した最初の評価フレームワークを開発する。
論文参考訳（メタデータ） (2025-05-21T14:44:40Z)
Network Intrusion Datasets: A Survey, Limitations, and Recommendations [0.0]
データ駆動型サイバー脅威検出は、現代のサイバーセキュリティにおいて重要な防御技術となっている。データの重要性にもかかわらず、その不足はNIDS研究の大きな障害として長年認識されてきた。
論文参考訳（メタデータ） (2025-02-10T17:14:37Z)
Oriented Tiny Object Detection: A Dataset, Benchmark, and Dynamic Unbiased Learning [51.170479006249195]
本研究では,新しいデータセット,ベンチマーク,動的粗大な学習手法を提案する。提案するデータセットであるAI-TOD-Rは、すべてのオブジェクト指向オブジェクト検出データセットの中で最小のオブジェクトサイズを特徴としている。完全教師付きおよびラベル効率の両アプローチを含む,幅広い検出パラダイムにまたがるベンチマークを提案する。
論文参考訳（メタデータ） (2024-12-16T09:14:32Z)
Trustworthiness in Retrieval-Augmented Generation Systems: A Survey [59.26328612791924]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の開発において、急速に重要なパラダイムへと成長してきた。本稿では,RAGシステムの信頼性を,事実性,堅牢性,公正性,透明性,説明責任,プライバシの6つの面で評価する統一的な枠組みを提案する。
論文参考訳（メタデータ） (2024-09-16T09:06:44Z)
DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文参考訳（メタデータ） (2024-07-01T18:58:22Z)
Video Anomaly Detection in 10 Years: A Survey and Outlook [10.143205531474907]
ビデオ異常検出(VAD)は、監視、医療、環境監視といった様々な領域において非常に重要である。この調査では、従来の教師付きトレーニングパラダイムを超えて、弱教師付き、自己監督型、教師なしのアプローチを包含する、ディープラーニングベースのVADを調査している。
論文参考訳（メタデータ） (2024-05-29T17:56:31Z)
Object Detectors in the Open Environment: Challenges, Solutions, and Outlook [95.3317059617271]
オープン環境のダイナミックで複雑な性質は、オブジェクト検出器に新しくて恐ろしい挑戦をもたらす。本稿では,オープン環境におけるオブジェクト検出器の総合的なレビューと解析を行う。データ/ターゲットの変化の次元に基づいて、4つの四分法(ドメイン外、カテゴリ外、堅牢な学習、漸進的な学習)を含むフレームワークを提案する。
論文参考訳（メタデータ） (2024-03-24T19:32:39Z)
Benchmarking Data Science Agents [11.582116078653968]
大規模言語モデル(LLM)は、データサイエンスエージェントとして有望な支援として登場し、データ分析と処理において人間を支援している。しかし、現実の応用の様々な要求と複雑な分析プロセスによって、それらの実用的有効性は依然として制限されている。我々は、新しい評価パラダイムであるDSEvalと、これらのエージェントの性能を評価するための一連の革新的なベンチマークを紹介する。
論文参考訳（メタデータ） (2024-02-27T03:03:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。