論文の概要: Enabling collaborative data science development with the Ballet
framework
- arxiv url: http://arxiv.org/abs/2012.07816v2
- Date: Tue, 6 Apr 2021 20:15:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-08 14:13:02.516459
- Title: Enabling collaborative data science development with the Ballet
framework
- Title(参考訳): Balletフレームワークによる協調型データサイエンス開発の実現
- Authors: Micah J. Smith, J\"urgen Cito, Kelvin Lu, Kalyan Veeramachaneni
- Abstract要約: 本稿では,データサイエンスのコラボレーションをスケールするための新しい概念的フレームワークとmlプログラミングモデルを提案する。
Balletはオープンソースのデータサイエンスを共同で行うための軽量ソフトウェアフレームワークです。
- 参考スコア(独自算出の注目度): 9.424574945499844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While the open-source model for software development has led to successful
large-scale collaborations in building software systems, data science projects
are frequently developed by individuals or small groups. We describe challenges
to scaling data science collaborations and present a novel conceptual framework
and ML programming model to address them. We instantiate these ideas in Ballet,
a lightweight software framework for collaborative open-source data science and
a cloud-based development environment, with a plugin for collaborative feature
engineering. Using our framework, collaborators incrementally propose feature
definitions to a repository which are each subjected to an ML evaluation and
can be automatically merged into an executable feature engineering pipeline. We
leverage Ballet to conduct an extensive case study analysis of a real-world
income prediction problem, and discuss implications for collaborative projects.
- Abstract(参考訳): ソフトウェア開発のオープンソースモデルがソフトウェアシステムの構築において大規模なコラボレーションを成功させた一方で、データサイエンスプロジェクトは個人や小グループによって頻繁に開発されている。
データサイエンスのコラボレーションをスケールする上での課題を解説し、それに対応するための新しい概念的フレームワークとMLプログラミングモデルを提案する。
Balletはオープンソースのデータサイエンスとクラウドベースの開発環境のための軽量なソフトウェアフレームワークで、協調的な機能エンジニアリングのためのプラグインがあります。
我々のフレームワークを用いて、共同作業者は、それぞれML評価の対象となり、自動的に実行可能な機能エンジニアリングパイプラインにマージ可能な、機能定義を段階的にレポジトリに提案する。
実世界の所得予測問題に対する広範なケーススタディ分析を行い,共同プロジェクトへの示唆について考察する。
関連論文リスト
- Multi-Agent Software Development through Cross-Team Collaboration [30.88149502999973]
ソフトウェア開発のためのスケーラブルなマルチチームフレームワークである、クロスチームコラボレーション(CTC)を紹介します。
CTCは、組織されたチームがさまざまな決定を共同で提案し、洞察とコミュニケーションすることを可能にする。
その結果,最先端のベースラインに比べて品質が顕著に向上した。
論文 参考訳(メタデータ) (2024-06-13T10:18:36Z) - DevBench: A Comprehensive Benchmark for Software Development [72.24266814625685]
DevBenchは、ソフトウェア開発ライフサイクルのさまざまな段階にわたる大規模言語モデル(LLM)を評価するベンチマークである。
GPT-4-Turboを含む現在のLLMは、DevBench内での課題の解決に失敗している。
本研究は,LLMを現実のプログラミングアプリケーションに展開する上で,現実的な知見を提供するものである。
論文 参考訳(メタデータ) (2024-03-13T15:13:44Z) - On the Interaction between Software Engineers and Data Scientists when
building Machine Learning-Enabled Systems [1.2184324428571227]
機械学習(ML)コンポーネントは、組織のコアシステムにますます統合されています。
重要な課題の1つは、緊密に連携する必要がある異なるバックグラウンドを持つアクター間の効果的な相互作用である。
本稿では,MLプロジェクトにおけるこれらの役割間の相互作用と協調のダイナミクスを理解するための探索ケーススタディを提案する。
論文 参考訳(メタデータ) (2024-02-08T00:27:56Z) - SoTaNa: The Open-Source Software Development Assistant [81.86136560157266]
SoTaNaはオープンソースのソフトウェア開発アシスタントだ。
ソフトウェア工学の分野のための高品質な命令ベースのデータを生成する。
オープンソースの基盤モデルであるLLaMAを強化するためにパラメータ効率のよい微調整アプローチを採用している。
論文 参考訳(メタデータ) (2023-08-25T14:56:21Z) - Code Recommendation for Open Source Software Developers [32.181023933552694]
CODERは、オープンソースのソフトウェア開発者のための新しいグラフベースのコードレコメンデーションフレームワークである。
本フレームワークは,プロジェクト内,クロスプロジェクト,コールドスタートレコメンデーションなど,様々な実験環境下での優れた性能を実現する。
論文 参考訳(メタデータ) (2022-10-15T16:40:36Z) - Assessing the Quality of Computational Notebooks for a Frictionless
Transition from Exploration to Production [1.332560004325655]
データサイエンティストは、機械学習プロジェクトの爆発的なフェーズから生産フェーズに移行する必要があります。
これら2つのフェーズのギャップを狭めるために、データサイエンティストが採用するツールとプラクティスは、統合されたソフトウェアエンジニアリングソリューションを統合することで改善される可能性がある。
本研究プロジェクトでは,計算ノートと協調する上でのベストプラクティスについて検討し,ガイドライン遵守を促進するための概念実証ツールを提案する。
論文 参考訳(メタデータ) (2022-05-24T10:13:38Z) - YMIR: A Rapid Data-centric Development Platform for Vision Applications [82.67319997259622]
本稿では,コンピュータビジョンアプリケーションの開発を迅速化するオープンソースプラットフォームについて紹介する。
このプラットフォームは、効率的なデータ開発を機械学習開発プロセスの中心に置く。
論文 参考訳(メタデータ) (2021-11-19T05:02:55Z) - CateCom: a practical data-centric approach to categorization of
computational models [77.34726150561087]
本稿では,物理モデルとデータ駆動型計算モデルのランドスケープを整理する取り組みについて述べる。
オブジェクト指向設計の概念を適用し、オープンソース協調フレームワークの基礎を概説する。
論文 参考訳(メタデータ) (2021-09-28T02:59:40Z) - Distributed Deep Learning in Open Collaborations [49.240611132653456]
協調学習に特化して設計された新しいアルゴリズムフレームワークを提案する。
現実的な条件下でのSwaVとALBERTの事前学習に対するアプローチの有効性を実証し,コストのごく一部で従来の設定に匹敵する性能を実現する。
論文 参考訳(メタデータ) (2021-06-18T16:23:13Z) - A Data-Centric Framework for Composable NLP Workflows [109.51144493023533]
アプリケーションドメインにおける経験的自然言語処理システム(例えば、ヘルスケア、ファイナンス、教育)は、複数のコンポーネント間の相互運用を伴う。
我々は,このような高度なNLPの高速な開発を支援するために,統一的なオープンソースフレームワークを構築した。
論文 参考訳(メタデータ) (2021-03-02T16:19:44Z) - Representation of Developer Expertise in Open Source Software [12.583969739954526]
We use the World of Code infrastructure to extract the complete set of APIs in the file changed by the open source developer。
次に、API、開発者、プロジェクトのベクター表現にDoc2Vecの埋め込みを使用します。
これらの埋め込みがスキル空間の仮定トポロジを反映しているかどうかを評価する。
論文 参考訳(メタデータ) (2020-05-20T16:36:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。