論文の概要: KGLiDS: A Platform for Semantic Abstraction, Linking, and Automation of Data Science
- arxiv url: http://arxiv.org/abs/2303.02204v4
- Date: Wed, 12 Jun 2024 07:26:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 01:52:33.868130
- Title: KGLiDS: A Platform for Semantic Abstraction, Linking, and Automation of Data Science
- Title(参考訳): KGLiDS: データサイエンスのセマンティック抽象化、リンク、自動化のためのプラットフォーム
- Authors: Mossad Helali, Niki Monjazeb, Shubham Vashisth, Philippe Carrier, Ahmed Helal, Antonio Cavalcante, Khaled Ammar, Katja Hose, Essam Mansour,
- Abstract要約: 本稿では、機械学習と知識グラフ技術を用いて、データサイエンスアーティファクトのセマンティクスとその接続を抽象化し、キャプチャするスケーラブルなプラットフォームKGLiDSを提案する。
この情報に基づいて、KGLiDSはデータディスカバリやパイプライン自動化など、さまざまなダウンストリームアプリケーションを可能にする。
- 参考スコア(独自算出の注目度): 4.120803087965204
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, we have witnessed the growing interest from academia and industry in applying data science technologies to analyze large amounts of data. In this process, a myriad of artifacts (datasets, pipeline scripts, etc.) are created. However, there has been no systematic attempt to holistically collect and exploit all the knowledge and experiences that are implicitly contained in those artifacts. Instead, data scientists recover information and expertise from colleagues or learn via trial and error. Hence, this paper presents a scalable platform, KGLiDS, that employs machine learning and knowledge graph technologies to abstract and capture the semantics of data science artifacts and their connections. Based on this information, KGLiDS enables various downstream applications, such as data discovery and pipeline automation. Our comprehensive evaluation covers use cases in data discovery, data cleaning, transformation, and AutoML. It shows that KGLiDS is significantly faster with a lower memory footprint than the state-of-the-art systems while achieving comparable or better accuracy.
- Abstract(参考訳): 近年,大量のデータ分析にデータサイエンス技術を適用することへの学界や業界からの関心が高まっているのを目の当たりにしている。
このプロセスでは、無数のアーティファクト(データセット、パイプラインスクリプトなど)が生成される。
しかし、これらのアーティファクトに暗黙的に含まれているすべての知識や経験を体系的に収集・活用する試みは行われていない。
代わりに、データサイエンティストは同僚の情報や専門知識を回復するか、試行錯誤を通じて学習する。
そこで本稿では、機械学習と知識グラフ技術を用いて、データサイエンスアーティファクトのセマンティクスとその関連性を抽象化し、キャプチャするスケーラブルなプラットフォームKGLiDSを提案する。
この情報に基づいて、KGLiDSはデータディスカバリやパイプライン自動化など、さまざまなダウンストリームアプリケーションを可能にする。
包括的な評価では、データディスカバリ、データのクリーニング、変換、AutoMLのユースケースについて取り上げています。
KGLiDSは、最先端のシステムよりもメモリフットプリントが低く、同等またはより良い精度を実現していることを示す。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - DSBench: How Far Are Data Science Agents to Becoming Data Science Experts? [58.330879414174476]
現実的なタスクでデータサイエンスエージェントを評価するためのベンチマークであるDSBenchを紹介する。
このベンチマークには、466のデータ分析タスクと、EloquenceとKaggleのコンペからソースされた74のデータモデリングタスクが含まれている。
現状のLLM, LVLM, エージェントを評価したところ, 最高のエージェントはデータ解析タスクの34.12%しか解決できず, RPG(Relative Performance Gap)は34.74%であった。
論文 参考訳(メタデータ) (2024-09-12T02:08:00Z) - How to Do Machine Learning with Small Data? -- A Review from an
Industrial Perspective [1.443696537295348]
著者らは、"小さなデータ"の一般的な用語とそのエンジニアリングと産業アプリケーションの役割を解釈することに重点を置いている。
小さなデータはビッグデータと比較して様々な特性で定義され、機械学習形式が導入された。
産業アプリケーションにおける小さなデータによる機械学習の5つの重要な課題を提示する。
論文 参考訳(メタデータ) (2023-11-13T07:39:13Z) - Position Paper on Dataset Engineering to Accelerate Science [1.952708415083428]
この作業では、トークン ittextdataset を使用して、明確に定義されたタスクを実行するために構築されたデータの構造化セットを指定する。
具体的には、科学において、各領域にはデータセットを整理、収集、処理するためのユニークな形態がある。
科学と工学の発見プロセスは、データセット上のそのような組織の必要性の極端な例である、と我々は主張する。
論文 参考訳(メタデータ) (2023-03-09T19:07:40Z) - A Vision for Semantically Enriched Data Science [19.604667287258724]
ドメイン知識の活用やデータセマンティクスといった重要な分野は、ほとんど自動化されていない分野です。
データサイエンスの自動化のための新しいツールと組み合わせて、データに対する“セマンティック”な理解と推論を活用することが、一貫性と説明可能なデータ拡張と変換にどのように役立つか、私たちは考えています。
論文 参考訳(メタデータ) (2023-03-02T16:03:12Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Knowledge Representation in Digital Agriculture: A Step Towards
Standardised Model [4.286327408435937]
農作物におけるデータマイニングを表現・保存するための新しい知識マップを提案する。
提案したモデルは、概念、属性、関係、変換、インスタンス、状態の6つの主要な集合で構成されている。
また,この知識モデルを扱うためのアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-07-15T20:31:56Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Synthetic Data: Opening the data floodgates to enable faster, more
directed development of machine learning methods [96.92041573661407]
機械学習における画期的な進歩の多くは、大量のリッチデータを利用できることに起因する。
多くの大規模データセットは、医療データなど高度に敏感であり、機械学習コミュニティでは広く利用できない。
プライバシー保証で合成データを生成することは、そのようなソリューションを提供します。
論文 参考訳(メタデータ) (2020-12-08T17:26:10Z) - Scaling Systematic Literature Reviews with Machine Learning Pipelines [57.82662094602138]
体系的なレビューは、科学的文書からデータを抽出する。
これらの側面をそれぞれ自動化するパイプラインを構築し、多くの人間時間対システム品質トレードオフを実験します。
人間の専門的アノテーションの2週間だけで、パイプラインシステム全体の驚くほどの精度と一般性が得られることが分かりました。
論文 参考訳(メタデータ) (2020-10-09T16:19:42Z) - Data science on industrial data -- Today's challenges in brown field
applications [0.0]
本論文は,ストックマシンの現場での作業における技術の現状と今後の展望について述べる。
この論文の主な焦点はデータ収集であり、ほとんどの人が予想するよりも扱いにくい。
機械学習アプリケーションのデータ品質は、実験室を去ると問題になる。
論文 参考訳(メタデータ) (2020-06-10T10:05:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。