論文の概要: EDAssistant: Supporting Exploratory Data Analysis in Computational
Notebooks with In-Situ Code Search and Recommendation
- arxiv url: http://arxiv.org/abs/2112.07858v1
- Date: Wed, 15 Dec 2021 03:27:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-16 17:23:06.221172
- Title: EDAssistant: Supporting Exploratory Data Analysis in Computational
Notebooks with In-Situ Code Search and Recommendation
- Title(参考訳): EDAsistant: In-Situ Code Search and Recommendationによる計算ノートの探索データ解析支援
- Authors: Xingjun Li, Yizhi Zhang, Justin Leung, Chengnian Sun, Jian Zhao
- Abstract要約: 本稿では,JupyterLabの拡張版であるEDAsistantについて紹介する。
コード検索とレコメンデーションは、オンラインに収集された大量のEDAノートブックでトレーニングされた最先端の機械学習モデルによって実現される。
- 参考スコア(独自算出の注目度): 4.95912340593614
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Using computational notebooks (e.g., Jupyter Notebook), data scientists
rationalize their exploratory data analysis (EDA) based on their prior
experience and external knowledge such as online examples. For novices or data
scientists who lack specific knowledge about the dataset or problem to
investigate, effectively obtaining and understanding the external information
is critical to carry out EDA. This paper presents EDAssistant, a JupyterLab
extension that supports EDA with in-situ search of example notebooks and
recommendation of useful APIs, powered by novel interactive visualization of
search results. The code search and recommendation are enabled by
state-of-the-art machine learning models, trained on a large corpus of EDA
notebooks collected online. A user study is conducted to investigate both
EDAssistant and data scientists' current practice (i.e., using external search
engines). The results demonstrate the effectiveness and usefulness of
EDAssistant, and participants appreciated its smooth and in-context support of
EDA. We also report several design implications regarding code recommendation
tools.
- Abstract(参考訳): 計算ノート(例えばJupyter Notebook)を用いて、データサイエンティストは以前の経験とオンライン例のような外部知識に基づいて探索データ分析(EDA)を合理化する。
初心者やデータサイエンティストが、データセットや調査する問題に関する特定の知識を欠いている場合、外部情報を効果的に取得し、理解することがedaの実行に不可欠である。
本稿では,サンプルノートをその場で検索し,有用なapiを推薦する機能を備えたjupyterlab拡張であるed assistantを提案する。
コード検索とレコメンデーションは、オンラインに収集された大量のEDAノートブックでトレーニングされた最先端の機械学習モデルによって実現される。
ユーザスタディは、EDAとデータサイエンティストの現在の実践(例えば、外部検索エンジン)を調査するために行われる。
以上の結果から, 参加者は, EDAのスムーズでコンテクスト内サポートを高く評価し, 有効性と有用性を示した。
また、コードレコメンデーションツールに関するいくつかの設計上の意味を報告します。
関連論文リスト
- AI Data Readiness Inspector (AIDRIN) for Quantitative Assessment of Data Readiness for AI [0.8553254686016967]
ガベージ・イン・ガベージ・アウト(Garbage in Garbage Out)は、人工知能(AI)など、様々な分野のコンピュータ科学者によって広く合意された引用である。
AIのデータ"可読性"を評価するための標準的な方法やフレームワークはありません。
AIDRINは、文献で利用可能な幅広い準備性次元をカバーするフレームワークである。
論文 参考訳(メタデータ) (2024-06-27T15:26:39Z) - DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z) - Instruct and Extract: Instruction Tuning for On-Demand Information
Extraction [86.29491354355356]
On-Demand Information extractは、現実世界のユーザのパーソナライズされた要求を満たすことを目的としている。
InstructIEというベンチマークを、自動生成したトレーニングデータと、人手による注釈付きテストセットの両方を含む形で提示する。
InstructIE 上に構築した On-Demand Information Extractor, ODIE をさらに発展させる。
論文 参考訳(メタデータ) (2023-10-24T17:54:25Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - A Comprehensive Survey on Deep Learning Techniques in Educational Data Mining [26.349367339930083]
教育データマイニング(EDM: Educational Data Mining)は、計算技術の力を利用して教育データを分析する研究分野として発展してきた。
ディープラーニング技術は、データの分析とモデリングに関わる課題に対処する上で、大きな利点を示してきた。
この調査は、Deep LearningによるEDMの最先端を体系的にレビューすることを目的としている。
論文 参考訳(メタデータ) (2023-09-09T11:20:40Z) - Dataset Distillation: A Comprehensive Review [76.26276286545284]
データセット蒸留(DD)は、トレーニングされたモデルが元のデータセットでトレーニングされたデータセットに匹敵するパフォーマンスを得るために、合成サンプルを含むはるかに小さなデータセットを導出することを目的としている。
本稿ではDDの最近の進歩とその応用について概説する。
論文 参考訳(メタデータ) (2023-01-17T17:03:28Z) - A review of Generative Adversarial Networks for Electronic Health
Records: applications, evaluation measures and data sources [8.319639237899155]
Generative Adversarial Networks (GANs) は、基礎となるデータ分布を学習することで、合成EHRデータを生成する大きな可能性を示している。
本研究は,GANs for EHRの様々な応用における主要な展開を概観することを目的としており,提案手法の概要を提供する。
我々は、EHR開発におけるGANの課題について議論し、推奨プラクティスを提案することで締めくくります。
論文 参考訳(メタデータ) (2022-03-14T11:56:47Z) - DeepShovel: An Online Collaborative Platform for Data Extraction in
Geoscience Literature with AI Assistance [48.55345030503826]
地質学者は、関連する結果やデータを発見、抽出、集約するために膨大な量の文献を読む必要がある。
DeepShovelは、彼らのニーズをサポートするAI支援データ抽出システムである。
14人の研究者によるユーザ評価の結果、DeepShovelは科学データベース構築のためのデータ抽出の効率を改善した。
論文 参考訳(メタデータ) (2022-02-21T12:18:08Z) - A Novel Micro-service Based Platform for Composition, Deployment and
Execution of BDA Applications [0.0]
ALIDAは、BDAアプリケーション開発者とデータアナリストの両方がそれと対話できる統一されたプラットフォームの実現を目指している。
開発者は、公開APIおよび/またはWebユーザインターフェイスを介して、新しいBDAアプリケーションを登録することができる。
データアナリストは、提供されたBDAアプリケーションを使用して、ダッシュボードのユーザインターフェースを通じてバッチ/ストリームを作成して、1つ以上のソースから結果を操作し、視覚化することができる。
論文 参考訳(メタデータ) (2022-02-06T20:36:17Z) - Opportunities and Challenges of Deep Learning Methods for
Electrocardiogram Data: A Systematic Review [62.490310870300746]
心電図(Electrocardiogram、ECG)は、医学および医療において最も一般的に用いられる診断ツールの1つである。
深層学習法は心電図信号を用いた予測医療タスクにおいて有望な結果を得た。
本稿では、モデリングとアプリケーションの観点から、ECGデータに対するディープラーニング手法の体系的なレビューを行う。
論文 参考訳(メタデータ) (2019-12-28T02:44:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。