論文の概要: Enabling collaborative data science development with the Ballet
framework
- arxiv url: http://arxiv.org/abs/2012.07816v2
- Date: Tue, 6 Apr 2021 20:15:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-08 14:13:02.516459
- Title: Enabling collaborative data science development with the Ballet
framework
- Title(参考訳): Balletフレームワークによる協調型データサイエンス開発の実現
- Authors: Micah J. Smith, J\"urgen Cito, Kelvin Lu, Kalyan Veeramachaneni
- Abstract要約: 本稿では,データサイエンスのコラボレーションをスケールするための新しい概念的フレームワークとmlプログラミングモデルを提案する。
Balletはオープンソースのデータサイエンスを共同で行うための軽量ソフトウェアフレームワークです。
- 参考スコア(独自算出の注目度): 9.424574945499844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While the open-source model for software development has led to successful
large-scale collaborations in building software systems, data science projects
are frequently developed by individuals or small groups. We describe challenges
to scaling data science collaborations and present a novel conceptual framework
and ML programming model to address them. We instantiate these ideas in Ballet,
a lightweight software framework for collaborative open-source data science and
a cloud-based development environment, with a plugin for collaborative feature
engineering. Using our framework, collaborators incrementally propose feature
definitions to a repository which are each subjected to an ML evaluation and
can be automatically merged into an executable feature engineering pipeline. We
leverage Ballet to conduct an extensive case study analysis of a real-world
income prediction problem, and discuss implications for collaborative projects.
- Abstract(参考訳): ソフトウェア開発のオープンソースモデルがソフトウェアシステムの構築において大規模なコラボレーションを成功させた一方で、データサイエンスプロジェクトは個人や小グループによって頻繁に開発されている。
データサイエンスのコラボレーションをスケールする上での課題を解説し、それに対応するための新しい概念的フレームワークとMLプログラミングモデルを提案する。
Balletはオープンソースのデータサイエンスとクラウドベースの開発環境のための軽量なソフトウェアフレームワークで、協調的な機能エンジニアリングのためのプラグインがあります。
我々のフレームワークを用いて、共同作業者は、それぞれML評価の対象となり、自動的に実行可能な機能エンジニアリングパイプラインにマージ可能な、機能定義を段階的にレポジトリに提案する。
実世界の所得予測問題に対する広範なケーススタディ分析を行い,共同プロジェクトへの示唆について考察する。
関連論文リスト
- Towards Human-Guided, Data-Centric LLM Co-Pilots [53.35493881390917]
CliMB-DCは、機械学習コパイロットのための、ヒューマンガイド付き、データ中心のフレームワークである。
高度なデータ中心ツールとLLM駆動推論を組み合わせることで、堅牢でコンテキスト対応のデータ処理を可能にする。
CliMB-DCが未処理のデータセットをML対応フォーマットに変換する方法を示す。
論文 参考訳(メタデータ) (2025-01-17T17:51:22Z) - Human-In-the-Loop Software Development Agents [12.830816751625829]
大規模言語モデル(LLM)ベースのソフトウェアエンジニアリングのためのマルチエージェントパラダイムを導入し、ソフトウェア開発タスクを自動的に解決する。
本稿では,ソフトウェア開発のためのHuman-in-the-loop LLMベースのエージェントフレームワーク(HULA)を紹介する。
私たちは社内使用のために、HULAフレームワークをAtlassianに設計、実装、デプロイしています。
論文 参考訳(メタデータ) (2024-11-19T23:22:33Z) - Data Analysis in the Era of Generative AI [56.44807642944589]
本稿では,AIを活用したデータ分析ツールの可能性について考察する。
我々は、大規模言語とマルチモーダルモデルの出現が、データ分析ワークフローの様々な段階を強化する新しい機会を提供する方法について検討する。
次に、直感的なインタラクションを促進し、ユーザ信頼を構築し、AI支援分析ワークフローを複数のアプリにわたって合理化するための、人間中心の設計原則を調べます。
論文 参考訳(メタデータ) (2024-09-27T06:31:03Z) - On the Interaction between Software Engineers and Data Scientists when
building Machine Learning-Enabled Systems [1.2184324428571227]
機械学習(ML)コンポーネントは、組織のコアシステムにますます統合されています。
重要な課題の1つは、緊密に連携する必要がある異なるバックグラウンドを持つアクター間の効果的な相互作用である。
本稿では,MLプロジェクトにおけるこれらの役割間の相互作用と協調のダイナミクスを理解するための探索ケーススタディを提案する。
論文 参考訳(メタデータ) (2024-02-08T00:27:56Z) - SoTaNa: The Open-Source Software Development Assistant [81.86136560157266]
SoTaNaはオープンソースのソフトウェア開発アシスタントだ。
ソフトウェア工学の分野のための高品質な命令ベースのデータを生成する。
オープンソースの基盤モデルであるLLaMAを強化するためにパラメータ効率のよい微調整アプローチを採用している。
論文 参考訳(メタデータ) (2023-08-25T14:56:21Z) - Code Recommendation for Open Source Software Developers [32.181023933552694]
CODERは、オープンソースのソフトウェア開発者のための新しいグラフベースのコードレコメンデーションフレームワークである。
本フレームワークは,プロジェクト内,クロスプロジェクト,コールドスタートレコメンデーションなど,様々な実験環境下での優れた性能を実現する。
論文 参考訳(メタデータ) (2022-10-15T16:40:36Z) - Assessing the Quality of Computational Notebooks for a Frictionless
Transition from Exploration to Production [1.332560004325655]
データサイエンティストは、機械学習プロジェクトの爆発的なフェーズから生産フェーズに移行する必要があります。
これら2つのフェーズのギャップを狭めるために、データサイエンティストが採用するツールとプラクティスは、統合されたソフトウェアエンジニアリングソリューションを統合することで改善される可能性がある。
本研究プロジェクトでは,計算ノートと協調する上でのベストプラクティスについて検討し,ガイドライン遵守を促進するための概念実証ツールを提案する。
論文 参考訳(メタデータ) (2022-05-24T10:13:38Z) - YMIR: A Rapid Data-centric Development Platform for Vision Applications [82.67319997259622]
本稿では,コンピュータビジョンアプリケーションの開発を迅速化するオープンソースプラットフォームについて紹介する。
このプラットフォームは、効率的なデータ開発を機械学習開発プロセスの中心に置く。
論文 参考訳(メタデータ) (2021-11-19T05:02:55Z) - Distributed Deep Learning in Open Collaborations [49.240611132653456]
協調学習に特化して設計された新しいアルゴリズムフレームワークを提案する。
現実的な条件下でのSwaVとALBERTの事前学習に対するアプローチの有効性を実証し,コストのごく一部で従来の設定に匹敵する性能を実現する。
論文 参考訳(メタデータ) (2021-06-18T16:23:13Z) - A Data-Centric Framework for Composable NLP Workflows [109.51144493023533]
アプリケーションドメインにおける経験的自然言語処理システム(例えば、ヘルスケア、ファイナンス、教育)は、複数のコンポーネント間の相互運用を伴う。
我々は,このような高度なNLPの高速な開発を支援するために,統一的なオープンソースフレームワークを構築した。
論文 参考訳(メタデータ) (2021-03-02T16:19:44Z) - Representation of Developer Expertise in Open Source Software [12.583969739954526]
We use the World of Code infrastructure to extract the complete set of APIs in the file changed by the open source developer。
次に、API、開発者、プロジェクトのベクター表現にDoc2Vecの埋め込みを使用します。
これらの埋め込みがスキル空間の仮定トポロジを反映しているかどうかを評価する。
論文 参考訳(メタデータ) (2020-05-20T16:36:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。