論文の概要: Measuring Data Science Automation: A Survey of Evaluation Tools for AI Assistants and Agents
- arxiv url: http://arxiv.org/abs/2506.08800v1
- Date: Tue, 10 Jun 2025 13:47:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.562817
- Title: Measuring Data Science Automation: A Survey of Evaluation Tools for AI Assistants and Agents
- Title(参考訳): データサイエンスの自動化を計測する - AIアシスタントとエージェントの評価ツールの調査
- Authors: Irene Testini, José Hernández-Orallo, Lorenzo Pacchiardi,
- Abstract要約: 大規模言語モデル(LLM)は、データサイエンスのアシスタントとしてますます使われている。
データサイエンス活動の適正な自動化は、LLMエージェントの台頭によって約束されている。
- 参考スコア(独自算出の注目度): 11.783547185760007
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data science aims to extract insights from data to support decision-making processes. Recently, Large Language Models (LLMs) are increasingly used as assistants for data science, by suggesting ideas, techniques and small code snippets, or for the interpretation of results and reporting. Proper automation of some data-science activities is now promised by the rise of LLM agents, i.e., AI systems powered by an LLM equipped with additional affordances--such as code execution and knowledge bases--that can perform self-directed actions and interact with digital environments. In this paper, we survey the evaluation of LLM assistants and agents for data science. We find (1) a dominant focus on a small subset of goal-oriented activities, largely ignoring data management and exploratory activities; (2) a concentration on pure assistance or fully autonomous agents, without considering intermediate levels of human-AI collaboration; and (3) an emphasis on human substitution, therefore neglecting the possibility of higher levels of automation thanks to task transformation.
- Abstract(参考訳): データサイエンスは、意思決定プロセスをサポートするためにデータから洞察を抽出することを目的としている。
近年、アイデアやテクニック、小さなコードスニペットの提案、結果の解釈や報告などによって、データサイエンスのアシスタントとして、LLM(Large Language Models)がますます使われています。
一部のデータサイエンス活動の適正な自動化は、LLMエージェント、すなわち、コード実行や知識ベースなどの追加の余裕を備えたLLMによって駆動されるAIシステムが台頭することで約束される。
本稿では,データサイエンスのためのLLMアシスタントとエージェントの評価について調査する。
1)データ管理や探索活動を無視した目標指向活動の小さなサブセット,(2)人間-AI連携の中間レベルを考慮せずに純粋支援や完全自律エージェントに集中すること,(3)人事変化による自動化の高レベル化を無視すること,などに注目した。
関連論文リスト
- Towards Human-Guided, Data-Centric LLM Co-Pilots [53.35493881390917]
CliMB-DCは、機械学習コパイロットのための、ヒューマンガイド付き、データ中心のフレームワークである。
高度なデータ中心ツールとLLM駆動推論を組み合わせることで、堅牢でコンテキスト対応のデータ処理を可能にする。
CliMB-DCが未処理のデータセットをML対応フォーマットに変換する方法を示す。
論文 参考訳(メタデータ) (2025-01-17T17:51:22Z) - AD-LLM: Benchmarking Large Language Models for Anomaly Detection [50.57641458208208]
本稿では,大規模な言語モデルが異常検出にどのように役立つかを評価する最初のベンチマークであるAD-LLMを紹介する。
我々は、ゼロショット検出、LLMの事前訓練された知識を用いて、タスク固有のトレーニングなしでADを実行すること、データ拡張、ADモデルを改善するために合成データとカテゴリ記述を生成すること、LLMを使用して教師なしADモデルを提案するモデル選択の3つの主要なタスクについて検討する。
論文 参考訳(メタデータ) (2024-12-15T10:22:14Z) - CurateGPT: A flexible language-model assisted biocuration tool [0.6425885600880427]
ジェネレーティブAIは、人間主導のキュレーションを支援する新しい可能性を開いた。
CurateGPTはキュレーションプロセスの合理化を図り、共同作業と効率性の向上を図っている。
これにより、キュレーター、研究者、エンジニアがキュレーションの取り組みを拡大し、科学データ量の増加に追随するのに役立つ。
論文 参考訳(メタデータ) (2024-10-29T20:00:04Z) - Assessing the Performance of Human-Capable LLMs -- Are LLMs Coming for Your Job? [0.0]
SelfScoreは、ヘルプデスクとプロのコンサルティングタスクにおけるLLM(Large Language Model)の自動エージェントのパフォーマンスを評価するために設計されたベンチマークである。
このベンチマークは、問題の複雑さと応答の助け、スコアリングシステムにおける透明性と単純さの確保に関するエージェントを評価する。
この研究は、特にAI技術が優れている地域では、労働者の移動の可能性への懸念を提起している。
論文 参考訳(メタデータ) (2024-10-05T14:37:35Z) - WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。
WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文 参考訳(メタデータ) (2024-07-07T07:15:49Z) - The Foundations of Computational Management: A Systematic Approach to
Task Automation for the Integration of Artificial Intelligence into Existing
Workflows [55.2480439325792]
本稿では,タスク自動化の体系的アプローチである計算管理を紹介する。
この記事では、ワークフロー内でAIを実装するプロセスを開始するための、ステップバイステップの手順を3つ紹介する。
論文 参考訳(メタデータ) (2024-02-07T01:45:14Z) - Can Large Language Models Serve as Data Analysts? A Multi-Agent Assisted
Approach for Qualitative Data Analysis [6.592797748561459]
大規模言語モデル(LLM)は、ソフトウェア工学(SE)における協調的な人間とロボットの相互作用を可能にした
定性的な研究において,新たな拡張性と精度の次元を導入し,SEにおけるデータ解釈手法を変革する可能性がある。
論文 参考訳(メタデータ) (2024-02-02T13:10:46Z) - ChatGPT as your Personal Data Scientist [0.9689893038619583]
本稿では,ChatGPTを用いた対話型データサイエンスフレームワークについて紹介する。
データビジュアライゼーション、タスクの定式化、予測エンジニアリング、結果概要と勧告の4つのダイアログ状態を中心に、私たちのモデルが中心になっています。
要約して,会話データ科学の新たな概念が実現可能であることを証明するとともに,複雑なタスクを解く上でLLMが有効であることを示すエンド・ツー・エンド・エンド・システムを開発した。
論文 参考訳(メタデータ) (2023-05-23T04:00:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。