論文の概要: Linked Data Science Powered by Knowledge Graphs
- arxiv url: http://arxiv.org/abs/2303.02204v1
- Date: Fri, 3 Mar 2023 20:31:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 20:59:29.763679
- Title: Linked Data Science Powered by Knowledge Graphs
- Title(参考訳): ナレッジグラフを用いたlinked data science
- Authors: Mossad Helali, Shubham Vashisth, Philippe Carrier, Katja Hose, Essam
Mansour
- Abstract要約: 本稿では,機械学習を用いてデータサイエンスパイプラインのセマンティクスを抽出し,それらを知識グラフでキャプチャするスケーラブルなシステムを提案する。
この抽象化がLinked Data Scienceを可能にする鍵となるのは、プラットフォームや企業、機関間でパイプラインの本質を共有することができるからです。
KGLiDSは、データセットのレコメンデーションやパイプラインの分類といった関連するタスクにおいて、最先端のシステムよりも大幅に優れています。
- 参考スコア(独自算出の注目度): 3.6319424256529844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, we have witnessed a growing interest in data science not
only from academia but particularly from companies investing in data science
platforms to analyze large amounts of data. In this process, a myriad of data
science artifacts, such as datasets and pipeline scripts, are created. Yet,
there has so far been no systematic attempt to holistically exploit the
collected knowledge and experiences that are implicitly contained in the
specification of these pipelines, e.g., compatible datasets, cleansing steps,
ML algorithms, parameters, etc. Instead, data scientists still spend a
considerable amount of their time trying to recover relevant information and
experiences from colleagues, trial and error, lengthy exploration, etc. In this
paper, we, therefore, propose a scalable system (KGLiDS) that employs machine
learning to extract the semantics of data science pipelines and captures them
in a knowledge graph, which can then be exploited to assist data scientists in
various ways. This abstraction is the key to enabling Linked Data Science since
it allows us to share the essence of pipelines between platforms, companies,
and institutions without revealing critical internal information and instead
focusing on the semantics of what is being processed and how. Our comprehensive
evaluation uses thousands of datasets and more than thirteen thousand pipeline
scripts extracted from data discovery benchmarks and the Kaggle portal and
shows that KGLiDS significantly outperforms state-of-the-art systems on related
tasks, such as dataset recommendation and pipeline classification.
- Abstract(参考訳): 近年では、学界だけでなく、特に大量のデータを分析するためにデータサイエンスプラットフォームに投資している企業からも、データサイエンスへの関心が高まっている。
このプロセスでは、データセットやパイプラインスクリプトといった、無数のデータサイエンスアーティファクトが作成されます。
しかし、これらのパイプラインの仕様に暗黙的に含まれている知識や経験(例えば、互換性のあるデータセット、クリーン化ステップ、mlアルゴリズム、パラメータなど)を体系的に活用する試みは、今のところ行われていない。
代わりに、データサイエンティストは、関係のある情報や同僚の体験、試行錯誤、長い探査などを取り戻すために、かなりの時間を費やしています。
そこで本稿では,機械学習を用いてデータサイエンスパイプラインのセマンティクスを抽出し,それを知識グラフに取り込み,さまざまな方法でデータサイエンティストを支援するスケーラブルなシステム(KGLiDS)を提案する。
この抽象化がLinked Data Scienceを実現する鍵となるのは,プラットフォームや企業,機関間で,重要な内部情報を公開することなく,処理対象と処理方法のセマンティクスを重視することなく,パイプラインの本質を共有可能にするからです。
包括的評価では,データ探索ベンチマークとKaggleポータルから抽出された数千のデータセットと13万以上のパイプラインスクリプトを使用し,データセットレコメンデーションやパイプライン分類といった関連するタスクにおいて,KGLiDSが最先端システムを大幅に上回っていることを示す。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - DSBench: How Far Are Data Science Agents to Becoming Data Science Experts? [58.330879414174476]
現実的なタスクでデータサイエンスエージェントを評価するためのベンチマークであるDSBenchを紹介する。
このベンチマークには、466のデータ分析タスクと、EloquenceとKaggleのコンペからソースされた74のデータモデリングタスクが含まれている。
現状のLLM, LVLM, エージェントを評価したところ, 最高のエージェントはデータ解析タスクの34.12%しか解決できず, RPG(Relative Performance Gap)は34.74%であった。
論文 参考訳(メタデータ) (2024-09-12T02:08:00Z) - How to Do Machine Learning with Small Data? -- A Review from an
Industrial Perspective [1.443696537295348]
著者らは、"小さなデータ"の一般的な用語とそのエンジニアリングと産業アプリケーションの役割を解釈することに重点を置いている。
小さなデータはビッグデータと比較して様々な特性で定義され、機械学習形式が導入された。
産業アプリケーションにおける小さなデータによる機械学習の5つの重要な課題を提示する。
論文 参考訳(メタデータ) (2023-11-13T07:39:13Z) - Position Paper on Dataset Engineering to Accelerate Science [1.952708415083428]
この作業では、トークン ittextdataset を使用して、明確に定義されたタスクを実行するために構築されたデータの構造化セットを指定する。
具体的には、科学において、各領域にはデータセットを整理、収集、処理するためのユニークな形態がある。
科学と工学の発見プロセスは、データセット上のそのような組織の必要性の極端な例である、と我々は主張する。
論文 参考訳(メタデータ) (2023-03-09T19:07:40Z) - A Vision for Semantically Enriched Data Science [19.604667287258724]
ドメイン知識の活用やデータセマンティクスといった重要な分野は、ほとんど自動化されていない分野です。
データサイエンスの自動化のための新しいツールと組み合わせて、データに対する“セマンティック”な理解と推論を活用することが、一貫性と説明可能なデータ拡張と変換にどのように役立つか、私たちは考えています。
論文 参考訳(メタデータ) (2023-03-02T16:03:12Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Knowledge Representation in Digital Agriculture: A Step Towards
Standardised Model [4.286327408435937]
農作物におけるデータマイニングを表現・保存するための新しい知識マップを提案する。
提案したモデルは、概念、属性、関係、変換、インスタンス、状態の6つの主要な集合で構成されている。
また,この知識モデルを扱うためのアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-07-15T20:31:56Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Synthetic Data: Opening the data floodgates to enable faster, more
directed development of machine learning methods [96.92041573661407]
機械学習における画期的な進歩の多くは、大量のリッチデータを利用できることに起因する。
多くの大規模データセットは、医療データなど高度に敏感であり、機械学習コミュニティでは広く利用できない。
プライバシー保証で合成データを生成することは、そのようなソリューションを提供します。
論文 参考訳(メタデータ) (2020-12-08T17:26:10Z) - Scaling Systematic Literature Reviews with Machine Learning Pipelines [57.82662094602138]
体系的なレビューは、科学的文書からデータを抽出する。
これらの側面をそれぞれ自動化するパイプラインを構築し、多くの人間時間対システム品質トレードオフを実験します。
人間の専門的アノテーションの2週間だけで、パイプラインシステム全体の驚くほどの精度と一般性が得られることが分かりました。
論文 参考訳(メタデータ) (2020-10-09T16:19:42Z) - Data science on industrial data -- Today's challenges in brown field
applications [0.0]
本論文は,ストックマシンの現場での作業における技術の現状と今後の展望について述べる。
この論文の主な焦点はデータ収集であり、ほとんどの人が予想するよりも扱いにくい。
機械学習アプリケーションのデータ品質は、実験室を去ると問題になる。
論文 参考訳(メタデータ) (2020-06-10T10:05:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。