論文の概要: AutoDS: Towards Human-Centered Automation of Data Science
- arxiv url: http://arxiv.org/abs/2101.05273v1
- Date: Wed, 13 Jan 2021 08:35:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-30 07:51:43.346974
- Title: AutoDS: Towards Human-Centered Automation of Data Science
- Title(参考訳): autods: データサイエンスの人間中心自動化に向けて
- Authors: Dakuo Wang, Josh Andres, Justin Weisz, Erick Oduor, Casey Dugan
- Abstract要約: 本稿では,データサイエンスプロジェクトを支援する自動機械学習(AutoML)システムであるAutoDSを紹介する。
予想通り、autodsは生産性を向上させる。しかし驚くべきことに、autods groupが生成するモデルは品質が高く、エラーが少ないが、人間の信頼度スコアは低い。
- 参考スコア(独自算出の注目度): 20.859067294445985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data science (DS) projects often follow a lifecycle that consists of
laborious tasks for data scientists and domain experts (e.g., data exploration,
model training, etc.). Only till recently, machine learning(ML) researchers
have developed promising automation techniques to aid data workers in these
tasks. This paper introduces AutoDS, an automated machine learning (AutoML)
system that aims to leverage the latest ML automation techniques to support
data science projects. Data workers only need to upload their dataset, then the
system can automatically suggest ML configurations, preprocess data, select
algorithm, and train the model. These suggestions are presented to the user via
a web-based graphical user interface and a notebook-based programming user
interface.
We studied AutoDS with 30 professional data scientists, where one group used
AutoDS, and the other did not, to complete a data science project. As expected,
AutoDS improves productivity; Yet surprisingly, we find that the models
produced by the AutoDS group have higher quality and less errors, but lower
human confidence scores. We reflect on the findings by presenting design
implications for incorporating automation techniques into human work in the
data science lifecycle.
- Abstract(参考訳): データサイエンス(DS)プロジェクトは、しばしばデータ科学者やドメインエキスパート(例えば、データ探索、モデルトレーニングなど)のための精力的なタスクからなるライフサイクルに従う。
最近まで、機械学習(ml)研究者は、これらのタスクでデータワーカーを支援する、有望な自動化技術を開発した。
本稿では,最新のml自動化技術を活用し,データサイエンスプロジェクトを支援する自動機械学習(automl)システムであるautodsについて紹介する。
データワーカーはデータセットをアップロードするだけで、システムは自動的にML設定、プリプロセスデータ、アルゴリズムの選択、モデルをトレーニングすることができる。
これらの提案は、Webベースのグラフィカルユーザインタフェースとノートブックベースのプログラミングユーザーインターフェースを介してユーザに提示される。
データサイエンスプロジェクトを完成させるために、あるグループがautodを使用していない30人のプロデータサイエンティストとautodを研究した。
予想通り、autodsは生産性を向上させる。しかし驚くべきことに、autods groupが生成するモデルは品質が高く、エラーが少ないが、人間の信頼度スコアは低い。
我々は,データサイエンスのライフサイクルにおいて,自動化技術を人間の作業に組み込むための設計上の意味を考察した。
関連論文リスト
- Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.81908518992161]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。
Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。
これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文 参考訳(メタデータ) (2024-07-15T17:54:37Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - Assessing the Use of AutoML for Data-Driven Software Engineering [10.40771687966477]
AutoMLは、エンドツーエンドのAI/MLパイプラインの構築を自動化することを約束する。
関心の高まりと高い期待にもかかわらず、AutoMLが現在採用されている範囲に関する情報が不足している。
論文 参考訳(メタデータ) (2023-07-20T11:14:24Z) - AutoML-GPT: Automatic Machine Learning with GPT [74.30699827690596]
本稿では,タスク指向のプロンプトを開発し,大規模言語モデル(LLM)を自動的に活用して学習パイプラインを自動化することを提案する。
本稿では,多様なAIモデルのブリッジとしてGPTを用いたAutoML-GPTを提案する。
このアプローチはコンピュータビジョン、自然言語処理、その他の課題領域において顕著な結果をもたらす。
論文 参考訳(メタデータ) (2023-05-04T02:09:43Z) - OmniForce: On Human-Centered, Large Model Empowered and Cloud-Edge
Collaborative AutoML System [85.8338446357469]
我々は人間中心のAutoMLシステムであるOmniForceを紹介した。
我々は、OmniForceがAutoMLシステムを実践し、オープン環境シナリオにおける適応型AIを構築する方法について説明する。
論文 参考訳(メタデータ) (2023-03-01T13:35:22Z) - A Survey of Machine Unlearning [56.017968863854186]
最近の規制では、要求に応じて、ユーザに関する個人情報をコンピュータシステムから削除する必要がある。
MLモデルは古いデータをよく記憶します。
機械学習に関する最近の研究は、この問題を完全に解決することはできなかった。
論文 参考訳(メタデータ) (2022-09-06T08:51:53Z) - Automated Machine Learning Techniques for Data Streams [91.3755431537592]
本稿では、最先端のオープンソースAutoMLツールを調査し、ストリームから収集したデータに適用し、時間とともにパフォーマンスがどのように変化するかを測定する。
この結果から,既製のAutoMLツールで十分な結果が得られることが示されたが,概念ドリフトや検出,適応といった手法が適用されれば,予測精度を時間とともに維持することが可能になる。
論文 参考訳(メタデータ) (2021-06-14T11:42:46Z) - Automating Data Science: Prospects and Challenges [30.4496620661692]
データサイエンスにおける自動化は、データサイエンティストの仕事の促進と変換を目的としている。
データサイエンスの重要な部分は、特にモデリング段階で既に自動化されています。
その他の側面は自動化が難しく、技術的課題だけでなく、オープンでコンテキストに依存したタスクは人間のインタラクションを必要とするためである。
論文 参考訳(メタデータ) (2021-05-12T14:34:35Z) - Fits and Starts: Enterprise Use of AutoML and the Role of Humans in the
Loop [4.468952886990851]
AutoMLシステムは、日常的なデータサイエンス作業をスピードアップし、統計学やコンピュータサイエンスの専門知識がなくても機械学習を利用できるようにする。
私たちは、さまざまな規模の組織から29人の個人にインタビューを行い、AutoMLシステムの使用方法、または使用予定を特徴づけます。
本研究は,人間のループ内視覚分析手法の設計と実装に影響を及ぼすものである。
論文 参考訳(メタデータ) (2021-01-12T04:52:48Z) - AutoML to Date and Beyond: Challenges and Opportunities [30.60364966752454]
AutoMLツールは、機械学習を非機械学習の専門家が利用できるようにすることを目的としている。
本稿では,AutoMLシステムのための新しい分類システムを提案する。
エンド・ツー・エンドの機械学習パイプラインのさらなる自動化に必要な研究を指摘して、将来のロードマップを策定しました。
論文 参考訳(メタデータ) (2020-10-21T06:08:21Z) - Trust in AutoML: Exploring Information Needs for Establishing Trust in
Automated Machine Learning Systems [30.385703521998014]
本稿では,AutoMLシステムへの信頼を確立するために,データサイエンティストの持つ情報ニーズを理解するための3つの研究結果について報告する。
モデルパフォーマンスメトリクスと視覚化が、AutoMLツールへの信頼を確立する上で、データサイエンティストにとって最も重要な情報であることに気付きました。
論文 参考訳(メタデータ) (2020-01-17T19:50:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。