論文の概要: Lightweight Knowledge Representations for Automating Data Analysis
- arxiv url: http://arxiv.org/abs/2311.12848v1
- Date: Sun, 15 Oct 2023 06:44:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 15:21:11.412045
- Title: Lightweight Knowledge Representations for Automating Data Analysis
- Title(参考訳): データ分析を自動化するための軽量知識表現
- Authors: Marko Sterbentz, Cameron Barrie, Donna Hooshmand, Shubham Shahi,
Abhratanu Dutta, Harper Pack, Andong Li Zhao, Andrew Paley, Alexander
Einarsson, Kristian Hammond
- Abstract要約: データサイエンスパイプラインの重要な側面、すなわちデータ分析を自動化するための第一歩を踏み出します。
本稿では、ドメインやデータ間の分析を対象とするデータ分析操作の分類法と、この分類を実際のデータに関連付けるドメイン固有の知識の体系化手法を提案する。
このようにして、複雑な分析と検索が可能なデータ上の情報空間を生成し、完全に自動化されたデータ分析の道を開く。
- 参考スコア(独自算出の注目度): 33.094930396228676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The principal goal of data science is to derive meaningful information from
data. To do this, data scientists develop a space of analytic possibilities and
from it reach their information goals by using their knowledge of the domain,
the available data, the operations that can be performed on those data, the
algorithms/models that are fed the data, and how all of these facets
interweave. In this work, we take the first steps towards automating a key
aspect of the data science pipeline: data analysis. We present an extensible
taxonomy of data analytic operations that scopes across domains and data, as
well as a method for codifying domain-specific knowledge that links this
analytics taxonomy to actual data. We validate the functionality of our
analytics taxonomy by implementing a system that leverages it, alongside domain
labelings for 8 distinct domains, to automatically generate a space of
answerable questions and associated analytic plans. In this way, we produce
information spaces over data that enable complex analyses and search over this
data and pave the way for fully automated data analysis.
- Abstract(参考訳): データサイエンスの主な目標は、データから有意義な情報を導き出すことである。
これを実現するために、データサイエンティストは分析可能性の空間を開発し、ドメインの知識、利用可能なデータ、それらのデータ上で実行可能な操作、データに供給されるアルゴリズムやモデル、そしてこれらすべてのファセットがどのように絡み合うかを使って、その情報目標に達する。
この作業では、データサイエンスパイプラインの重要な側面であるデータ分析を自動化するための第一歩を踏み出します。
本稿では、ドメインとデータにまたがるデータ分析操作の拡張可能な分類法と、この分析分類を実際のデータに関連付けるドメイン固有知識の定式化方法を提案する。
8つの異なるドメインに対するドメインラベリングと合わせて、回答可能な質問と関連する分析計画のスペースを自動的に生成するシステムを実装して、分析分類の機能を検証します。
このようにして、複雑な解析と検索を可能にするデータ上の情報空間を生成し、完全な自動データ解析の道を開く。
関連論文リスト
- Empowering Data Mesh with Federated Learning [5.087058648342379]
新しいパラダイムであるData Meshは、中央チームから各データドメインにデータオーナシップを分散することで、ドメインを第一級の関心事として扱う。
Paypal、Netflix、Zalandoといった数十万ドルの企業はすでに、この新しいアーキテクチャに基づいてデータ分析パイプラインを変革している。
我々はフェデレートラーニングをData Meshに組み込む先駆的なアプローチを導入します。
論文 参考訳(メタデータ) (2024-03-26T17:10:15Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and
Regulatory Norms [58.93352076927003]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - Demonstration of InsightPilot: An LLM-Empowered Automated Data
Exploration System [48.62158108517576]
本稿では,データ探索プロセスの簡略化を目的とした自動データ探索システムであるInsightPilotを紹介する。
InsightPilotは、理解、要約、説明などの適切な分析意図を自動的に選択する。
簡単に言うと、IQueryはデータ分析操作の抽象化と自動化であり、データアナリストのアプローチを模倣しています。
論文 参考訳(メタデータ) (2023-04-02T07:27:49Z) - PADME-SoSci: A Platform for Analytics and Distributed Machine Learning
for the Social Sciences [4.294774517325059]
PADMEは、モデルの実装とトレーニングを連携させる分散分析ツールである。
これにより、すべてのデータが単一の場所にあるかのようにモデルをトレーニングしながら、ロケーションをまたいだデータ分析が可能になる。
論文 参考訳(メタデータ) (2023-03-27T15:32:35Z) - A Vision for Semantically Enriched Data Science [19.604667287258724]
ドメイン知識の活用やデータセマンティクスといった重要な分野は、ほとんど自動化されていない分野です。
データサイエンスの自動化のための新しいツールと組み合わせて、データに対する“セマンティック”な理解と推論を活用することが、一貫性と説明可能なデータ拡張と変換にどのように役立つか、私たちは考えています。
論文 参考訳(メタデータ) (2023-03-02T16:03:12Z) - DataLab: A Platform for Data Analysis and Intervention [96.75253335629534]
DataLabは統一されたデータ指向プラットフォームであり、ユーザはデータの特徴をインタラクティブに分析することができる。
ツールネームには、データセットレコメンデーションとグローバルビジョン分析のための機能がある。
これまでのところ、DataLabは1,715のデータセットと3,583の変換バージョンをカバーしている。
論文 参考訳(メタデータ) (2022-02-25T18:32:19Z) - Paradigm selection for Data Fusion of SAR and Multispectral Sentinel
data applied to Land-Cover Classification [63.072664304695465]
本稿では、畳み込みニューラルネットワーク(CNN)に基づく4つのデータ融合パラダイムを分析し、実装する。
目標は、最良のデータ融合フレームワークを選択するための体系的な手順を提供することであり、その結果、最高の分類結果が得られる。
この手順は、土地被覆分類のために検証されているが、他のケースに転送することができる。
論文 参考訳(メタデータ) (2021-06-18T11:36:54Z) - Simple multi-dataset detection [83.9604523643406]
複数の大規模データセット上で統合検出器を訓練する簡単な方法を提案する。
データセット固有のアウトプットを共通の意味分類に自動的に統合する方法を示す。
私たちのアプローチは手動の分類学の調整を必要としません。
論文 参考訳(メタデータ) (2021-02-25T18:55:58Z) - Towards an Integrated Platform for Big Data Analysis [4.5257812998381315]
本稿では,これらすべての側面を統合した,ビッグデータ解析のための統合型プレート形式のビジョンについて述べる。
このアプローチの主な利点は、プラットフォーム全体の拡張スケーラビリティ、アルゴリズムのパラメータ化の改善、エンドツーエンドのデータ分析プロセスにおけるユーザビリティの改善である。
論文 参考訳(メタデータ) (2020-04-27T03:15:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。