論文の概要: DataLab: A Platform for Data Analysis and Intervention
- arxiv url: http://arxiv.org/abs/2202.12875v1
- Date: Fri, 25 Feb 2022 18:32:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-28 14:09:41.643675
- Title: DataLab: A Platform for Data Analysis and Intervention
- Title(参考訳): DataLab: データ分析と介入のためのプラットフォーム
- Authors: Yang Xiao, Jinlan Fu, Weizhe Yuan, Vijay Viswanathan, Zhoumianze Liu,
Yixin Liu, Graham Neubig and Pengfei Liu
- Abstract要約: DataLabは統一されたデータ指向プラットフォームであり、ユーザはデータの特徴をインタラクティブに分析することができる。
ツールネームには、データセットレコメンデーションとグローバルビジョン分析のための機能がある。
これまでのところ、DataLabは1,715のデータセットと3,583の変換バージョンをカバーしている。
- 参考スコア(独自算出の注目度): 96.75253335629534
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Despite data's crucial role in machine learning, most existing tools and
research tend to focus on systems on top of existing data rather than how to
interpret and manipulate data. In this paper, we propose DataLab, a unified
data-oriented platform that not only allows users to interactively analyze the
characteristics of data, but also provides a standardized interface for
different data processing operations. Additionally, in view of the ongoing
proliferation of datasets, \toolname has features for dataset recommendation
and global vision analysis that help researchers form a better view of the data
ecosystem. So far, DataLab covers 1,715 datasets and 3,583 of its transformed
version (e.g., hyponyms replacement), where 728 datasets support various
analyses (e.g., with respect to gender bias) with the help of 140M samples
annotated by 318 feature functions. DataLab is under active development and
will be supported going forward. We have released a web platform, web API,
Python SDK, PyPI published package and online documentation, which hopefully,
can meet the diverse needs of researchers.
- Abstract(参考訳): 機械学習におけるデータの役割は重要であるが、既存のツールや研究の多くは、データの解釈や操作ではなく、既存のデータに基づくシステムに焦点を当てている。
本稿では,ユーザがデータの特徴をインタラクティブに分析できるだけでなく,異なるデータ処理操作のための標準化されたインターフェースを提供する,統一データ指向プラットフォームDataLabを提案する。
さらに、データセットの普及が進行中であるという点では、データセットレコメンデーションとグローバルビジョン分析の機能を備えており、研究者がデータエコシステムをよりよく見るのに役立つ。
これまでdatalabは、1,715のデータセットと3,583の変換されたバージョン(例:hyponyms置換)をカバーしており、728のデータセットは318の機能関数でアノテートされた140万のサンプルの助けを借りて、さまざまな分析(性別バイアスなど)をサポートしている。
DataLabは開発中であり、今後サポートされる予定である。
私たちはwebプラットフォーム、web api、python sdk、pypiが公開したパッケージおよびオンラインドキュメントをリリースしました。
関連論文リスト
- OpenDataLab: Empowering General Artificial Intelligence with Open Datasets [53.22840149601411]
本稿では,多様なデータソース間のギャップと統一データ処理の必要性を埋めるプラットフォームであるOpenDataLabを紹介する。
OpenDataLabは、幅広いオープンソースのAIデータセットを統合し、インテリジェントクエリと高速ダウンロードサービスを通じて、データ取得効率を向上させる。
我々は,OpenDataLabが人工知能(AGI)の研究を大幅に促進し,関連するAI分野の進歩を促進することを期待する。
論文 参考訳(メタデータ) (2024-06-04T10:42:01Z) - DataFinder: Scientific Dataset Recommendation from Natural Language
Descriptions [100.52917027038369]
我々は、短い自然言語記述を与えられたデータセットを推奨するタスクを運用する。
この作業を容易にするために、我々は、より大規模な自動構築トレーニングセットと、より少ない専門家によるアノテート評価セットからなるDataFinderデータセットを構築した。
このシステムは、DataFinderデータセットに基づいてトレーニングされ、既存のサードパーティのデータセット検索エンジンよりも関連性の高い検索結果を見つける。
論文 参考訳(メタデータ) (2023-05-26T05:22:36Z) - Demonstration of InsightPilot: An LLM-Empowered Automated Data
Exploration System [48.62158108517576]
本稿では,データ探索プロセスの簡略化を目的とした自動データ探索システムであるInsightPilotを紹介する。
InsightPilotは、理解、要約、説明などの適切な分析意図を自動的に選択する。
簡単に言うと、IQueryはデータ分析操作の抽象化と自動化であり、データアナリストのアプローチを模倣しています。
論文 参考訳(メタデータ) (2023-04-02T07:27:49Z) - Data+Shift: Supporting visual investigation of data distribution shifts
by data scientists [1.6311150636417262]
Data+Shiftは、データ機能のシフトの根底にある要因を調査するタスクにおいて、データサイエンティストをサポートするビジュアル分析ツールである。
我々は、データサイエンティストが不正検出のユースケースにこのツールを使用したシンクオード実験で、我々のアプローチを検証した。
論文 参考訳(メタデータ) (2022-04-29T11:50:25Z) - Simplified Data Wrangling with ir_datasets [37.558383796758356]
ir_datasesは、IR(Information Retrieval)実験で使用されるデータセット上の典型的な操作を取得、管理、実行するためのツールです。
このツールは、多数のIRデータセットとベンチマークにpythonとコマンドラインインターフェースを提供する。
論文 参考訳(メタデータ) (2021-03-03T09:38:36Z) - MusPy: A Toolkit for Symbolic Music Generation [32.01713268702699]
MusPyは、シンボリック音楽生成のためのオープンソースのPythonライブラリである。
本稿では,現在MusPyが支援している11のデータセットの統計的解析について述べる。
論文 参考訳(メタデータ) (2020-08-05T06:16:13Z) - Open Graph Benchmark: Datasets for Machine Learning on Graphs [86.96887552203479]
スケーラブルで堅牢で再現可能なグラフ機械学習(ML)の研究を容易にするために,Open Graph Benchmark(OGB)を提案する。
OGBデータセットは大規模で、複数の重要なグラフMLタスクを含み、さまざまなドメインをカバーする。
各データセットに対して,有意義なアプリケーション固有のデータ分割と評価指標を用いた統一評価プロトコルを提供する。
論文 参考訳(メタデータ) (2020-05-02T03:09:50Z) - PyODDS: An End-to-end Outlier Detection System with Automated Machine
Learning [55.32009000204512]
PyODDSは、データベースサポート付きアウトレイラ検出のための、エンドツーエンドのPythonシステムである。
具体的には,探索空間を外乱検出パイプラインで定義し,与えられた探索空間内で探索戦略を作成する。
また、データサイエンスや機械学習のバックグラウンドの有無に関わらず、統一されたインターフェイスと視覚化を提供する。
論文 参考訳(メタデータ) (2020-03-12T03:30:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。