論文の概要: How to Data in Datathons
- arxiv url: http://arxiv.org/abs/2309.09770v1
- Date: Mon, 18 Sep 2023 13:51:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 13:23:52.729239
- Title: How to Data in Datathons
- Title(参考訳): データソンのデータの扱い方
- Authors: Carlos Mougan, Richard Plant, Clare Teng, Marya Bazzi, Alvaro Cabregas
Ejea, Ryan Sze-Yin Chan, David Salvador Jasin, Martin Stoffel, Kirstie Jane
Whitaker, Jules Manser
- Abstract要約: 我々は、データソンのデータ関連複雑さをナビゲートするためのガイドラインとレコメンデーションを提供する。
提案するフレームワークを10ケーススタディに適用する。
- 参考スコア(独自算出の注目度): 2.9210227449004713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rise of datathons, also known as data or data science hackathons, has
provided a platform to collaborate, learn, and innovate in a short timeframe.
Despite their significant potential benefits, organizations often struggle to
effectively work with data due to a lack of clear guidelines and best practices
for potential issues that might arise. Drawing on our own experiences and
insights from organizing >80 datathon challenges with >60 partnership
organizations since 2016, we provide guidelines and recommendations that serve
as a resource for organizers to navigate the data-related complexities of
datathons. We apply our proposed framework to 10 case studies.
- Abstract(参考訳): datathonsはdataまたはdata scienceハッカソンとしても知られ、短い時間枠で協力し、学び、革新するプラットフォームを提供している。
潜在的なメリットがあるにもかかわらず、組織はしばしば、潜在的な問題に対して明確なガイドラインとベストプラクティスが欠如しているため、データを扱うのに苦労する。
2016年以降、60以上の提携組織で80以上のデータthonチャレンジを組織した経験と洞察をもとに、オーガナイザがデータthonのデータ関連の複雑さをナビゲートするためのリソースとして役立つガイドラインとレコメンデーションを提供しています。
提案フレームワークを10のケーススタディに適用する。
関連論文リスト
- AUGUST: an Automatic Generation Understudy for Synthesizing
Conversational Recommendation Datasets [56.052803235932686]
本稿では,大規模かつ高品質なレコメンデーションダイアログを生成する新しい自動データセット合成手法を提案する。
i)従来のレコメンデーションデータセットからの豊富なパーソナライズされたユーザプロファイル、(ii)知識グラフからの豊富な外部知識、(iii)人間対人間会話レコメンデーションデータセットに含まれる会話能力。
論文 参考訳(メタデータ) (2023-06-16T05:27:14Z) - LargeST: A Benchmark Dataset for Large-Scale Traffic Forecasting [53.238027128161626]
交通予測はスマートシティのイニシアチブにおいて重要な役割を担い、ディープラーニングの力によって大きな進歩を遂げている。
しかし、現在の公開データセットで達成される有望な結果は、現実的なシナリオには適用できないかもしれない。
LargeSTベンチマークデータセットのデータセットとベースライン実装をリリースします。
論文 参考訳(メタデータ) (2023-06-14T05:48:36Z) - DataFinder: Scientific Dataset Recommendation from Natural Language
Descriptions [100.52917027038369]
我々は、短い自然言語記述を与えられたデータセットを推奨するタスクを運用する。
この作業を容易にするために、我々は、より大規模な自動構築トレーニングセットと、より少ない専門家によるアノテート評価セットからなるDataFinderデータセットを構築した。
このシステムは、DataFinderデータセットに基づいてトレーニングされ、既存のサードパーティのデータセット検索エンジンよりも関連性の高い検索結果を見つける。
論文 参考訳(メタデータ) (2023-05-26T05:22:36Z) - Linked Data Science Powered by Knowledge Graphs [3.6319424256529844]
本稿では,機械学習を用いてデータサイエンスパイプラインのセマンティクスを抽出し,それらを知識グラフでキャプチャするスケーラブルなシステムを提案する。
この抽象化がLinked Data Scienceを可能にする鍵となるのは、プラットフォームや企業、機関間でパイプラインの本質を共有することができるからです。
KGLiDSは、データセットのレコメンデーションやパイプラインの分類といった関連するタスクにおいて、最先端のシステムよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-03-03T20:31:04Z) - Data Mesh: Motivational Factors, Challenges, and Best Practices [0.0]
データメッシュは、データの民主化を促進するためのアーキテクチャ的な側面を含む、社会技術的概念である。
業界の専門家との15の半構造化インタビューを行います。
我々の研究は、業界の専門家による洞察を合成し、データメッシュの採用を成功させるためのガイドラインを研究者や専門家に提供する。
論文 参考訳(メタデータ) (2023-02-03T13:09:57Z) - DataPerf: Benchmarks for Data-Centric AI Development [55.77045107144101]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - Asynchronous Collaborative Learning Across Data Silos [9.094748832034746]
データサイロ間で機械学習モデルの非同期協調トレーニングを可能にするフレームワークを提案する。
これにより、データサイエンスチームは、データを共有することなく、機械学習モデルを協調的にトレーニングすることができる。
論文 参考訳(メタデータ) (2022-03-23T18:00:19Z) - CateCom: a practical data-centric approach to categorization of
computational models [77.34726150561087]
本稿では,物理モデルとデータ駆動型計算モデルのランドスケープを整理する取り組みについて述べる。
オブジェクト指向設計の概念を適用し、オープンソース協調フレームワークの基礎を概説する。
論文 参考訳(メタデータ) (2021-09-28T02:59:40Z) - Knowledge Scientists: Unlocking the data-driven organization [5.05432938384774]
信頼できるデータのための技術は、異なる関心事と専門知識によって駆動されている、と私たちは主張する。
意味のある、説明可能な、再現可能な、保守可能なデータの重要さを識別する組織は、信頼できるデータの民主化の最前線にいる。
論文 参考訳(メタデータ) (2020-04-16T20:14:20Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。