Fugu-MT 論文翻訳(概要): Measuring Data Science Automation: A Survey of Evaluation Tools for AI Assistants and Agents

論文の概要: Measuring Data Science Automation: A Survey of Evaluation Tools for AI Assistants and Agents

arxiv url: http://arxiv.org/abs/2506.08800v1
Date: Tue, 10 Jun 2025 13:47:22 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-11 15:11:42.562817
Title: Measuring Data Science Automation: A Survey of Evaluation Tools for AI Assistants and Agents
Title（参考訳）: データサイエンスの自動化を計測する - AIアシスタントとエージェントの評価ツールの調査
Authors: Irene Testini, José Hernández-Orallo, Lorenzo Pacchiardi,
Abstract要約: 大規模言語モデル(LLM)は、データサイエンスのアシスタントとしてますます使われている。データサイエンス活動の適正な自動化は、LLMエージェントの台頭によって約束されている。
参考スコア（独自算出の注目度）: 11.783547185760007
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Data science aims to extract insights from data to support decision-making processes. Recently, Large Language Models (LLMs) are increasingly used as assistants for data science, by suggesting ideas, techniques and small code snippets, or for the interpretation of results and reporting. Proper automation of some data-science activities is now promised by the rise of LLM agents, i.e., AI systems powered by an LLM equipped with additional affordances--such as code execution and knowledge bases--that can perform self-directed actions and interact with digital environments. In this paper, we survey the evaluation of LLM assistants and agents for data science. We find (1) a dominant focus on a small subset of goal-oriented activities, largely ignoring data management and exploratory activities; (2) a concentration on pure assistance or fully autonomous agents, without considering intermediate levels of human-AI collaboration; and (3) an emphasis on human substitution, therefore neglecting the possibility of higher levels of automation thanks to task transformation.
Abstract（参考訳）: データサイエンスは、意思決定プロセスをサポートするためにデータから洞察を抽出することを目的としている。近年、アイデアやテクニック、小さなコードスニペットの提案、結果の解釈や報告などによって、データサイエンスのアシスタントとして、LLM(Large Language Models)がますます使われています。一部のデータサイエンス活動の適正な自動化は、LLMエージェント、すなわち、コード実行や知識ベースなどの追加の余裕を備えたLLMによって駆動されるAIシステムが台頭することで約束される。本稿では,データサイエンスのためのLLMアシスタントとエージェントの評価について調査する。 1)データ管理や探索活動を無視した目標指向活動の小さなサブセット,(2)人間-AI連携の中間レベルを考慮せずに純粋支援や完全自律エージェントに集中すること,(3)人事変化による自動化の高レベル化を無視すること,などに注目した。

関連論文リスト

An Agentic Framework for Autonomous Materials Computation [70.24472585135929]
大規模言語モデル(LLM)は、科学的発見を加速するための強力なツールとして登場した。近年の進歩はLLMをエージェントフレームワークに統合し、複雑な科学実験のための検索、推論、ツールの使用を可能にしている。本稿では,第一原理計算の信頼性向上を目的としたドメイン特化エージェントを提案する。
論文参考訳（メタデータ） (2025-12-22T15:03:57Z)
What's the next frontier for Data-centric AI? Data Savvy Agents [71.76058707995398]
我々は、エージェントシステムの設計において、データに精通する能力が最優先すべきであると主張している。本稿では,このビジョンを実現するための4つの重要な機能を提案する。プロアクティブデータ取得,ソフシフィケートデータ処理,インタラクティブテストデータ合成,連続的適応。
論文参考訳（メタデータ） (2025-11-02T17:09:29Z)
A Survey of Data Agents: Emerging Paradigm or Overstated Hype? [66.1526688475023]
現在「データエージェント」は用語的曖昧さと不整合性に悩まされている。この調査では、データエージェントのための最初の体系的な階層型分類を紹介した。プロアクティブな生成データエージェントの出現を想定する、先見的なロードマップで締めくくります。
論文参考訳（メタデータ） (2025-10-27T17:54:07Z)
Autonomous Data Agents: A New Opportunity for Smart Data [50.02229219403014]
DataAgentsは、自律的なデータから知識システムへのパラダイムシフトを表している、とReportは主張する。 DataAgentsは、複雑で非構造化されたデータをコヒーレントで行動可能な知識に変換する。エージェントAIとデータ・トゥ・ナレッジシステムの収束が重要なトレンドとなっている理由を最初に検討する。
論文参考訳（メタデータ） (2025-09-23T06:46:41Z)
AI, Humans, and Data Science: Optimizing Roles Across Workflows and the Workforce [0.0]
我々は、分析、生成、エージェントAIの可能性と限界を考慮し、データサイエンティストを増強したり、伝統的に人間のアナリストや研究者によってなされたタスクを引き受ける。従来の調査分析が問題になったのは、統計ソフトウェアの使用が簡単になったことで、研究者が完全に理解できなかった分析を行えなくなった時だった。
論文参考訳（メタデータ） (2025-07-15T17:59:06Z)
AutoMind: Adaptive Knowledgeable Agent for Automated Data Science [39.16008227556205]
LLM(Large Language Model)エージェントは、現実世界のデータサイエンス問題に対処する大きな可能性を示している。既存のフレームワークは、厳格で、事前定義された、柔軟性のないコーディング戦略に依存している。適応的で知識のあるLLMエージェントフレームワークであるAutoMindを紹介する。
論文参考訳（メタデータ） (2025-06-12T17:59:32Z)
Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T18:49:25Z)
Towards Human-Guided, Data-Centric LLM Co-Pilots [53.35493881390917]
CliMB-DCは、機械学習コパイロットのための、ヒューマンガイド付き、データ中心のフレームワークである。高度なデータ中心ツールとLLM駆動推論を組み合わせることで、堅牢でコンテキスト対応のデータ処理を可能にする。 CliMB-DCが未処理のデータセットをML対応フォーマットに変換する方法を示す。
論文参考訳（メタデータ） (2025-01-17T17:51:22Z)
AD-LLM: Benchmarking Large Language Models for Anomaly Detection [50.57641458208208]
本稿では,大規模な言語モデルが異常検出にどのように役立つかを評価する最初のベンチマークであるAD-LLMを紹介する。我々は、ゼロショット検出、LLMの事前訓練された知識を用いて、タスク固有のトレーニングなしでADを実行すること、データ拡張、ADモデルを改善するために合成データとカテゴリ記述を生成すること、LLMを使用して教師なしADモデルを提案するモデル選択の3つの主要なタスクについて検討する。
論文参考訳（メタデータ） (2024-12-15T10:22:14Z)
CurateGPT: A flexible language-model assisted biocuration tool [0.6425885600880427]
ジェネレーティブAIは、人間主導のキュレーションを支援する新しい可能性を開いた。 CurateGPTはキュレーションプロセスの合理化を図り、共同作業と効率性の向上を図っている。これにより、キュレーター、研究者、エンジニアがキュレーションの取り組みを拡大し、科学データ量の増加に追随するのに役立つ。
論文参考訳（メタデータ） (2024-10-29T20:00:04Z)
Assessing the Performance of Human-Capable LLMs -- Are LLMs Coming for Your Job? [0.0]
SelfScoreは、ヘルプデスクとプロのコンサルティングタスクにおけるLLM(Large Language Model)の自動エージェントのパフォーマンスを評価するために設計されたベンチマークである。このベンチマークは、問題の複雑さと応答の助け、スコアリングシステムにおける透明性と単純さの確保に関するエージェントを評価する。この研究は、特にAI技術が優れている地域では、労働者の移動の可能性への懸念を提起している。
論文参考訳（メタデータ） (2024-10-05T14:37:35Z)
WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。 WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文参考訳（メタデータ） (2024-07-07T07:15:49Z)
The Foundations of Computational Management: A Systematic Approach to Task Automation for the Integration of Artificial Intelligence into Existing Workflows [55.2480439325792]
本稿では,タスク自動化の体系的アプローチである計算管理を紹介する。この記事では、ワークフロー内でAIを実装するプロセスを開始するための、ステップバイステップの手順を3つ紹介する。
論文参考訳（メタデータ） (2024-02-07T01:45:14Z)
Can Large Language Models Serve as Data Analysts? A Multi-Agent Assisted Approach for Qualitative Data Analysis [6.592797748561459]
大規模言語モデル(LLM)は、ソフトウェア工学(SE)における協調的な人間とロボットの相互作用を可能にした定性的な研究において,新たな拡張性と精度の次元を導入し,SEにおけるデータ解釈手法を変革する可能性がある。
論文参考訳（メタデータ） (2024-02-02T13:10:46Z)
TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文参考訳（メタデータ） (2023-11-30T18:02:44Z)
ChatGPT as your Personal Data Scientist [0.9689893038619583]
本稿では,ChatGPTを用いた対話型データサイエンスフレームワークについて紹介する。データビジュアライゼーション、タスクの定式化、予測エンジニアリング、結果概要と勧告の4つのダイアログ状態を中心に、私たちのモデルが中心になっています。要約して,会話データ科学の新たな概念が実現可能であることを証明するとともに,複雑なタスクを解く上でLLMが有効であることを示すエンド・ツー・エンド・エンド・システムを開発した。
論文参考訳（メタデータ） (2023-05-23T04:00:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。