論文の概要: DataLab: A Platform for Data Analysis and Intervention
- arxiv url: http://arxiv.org/abs/2202.12875v1
- Date: Fri, 25 Feb 2022 18:32:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-28 14:09:41.643675
- Title: DataLab: A Platform for Data Analysis and Intervention
- Title(参考訳): DataLab: データ分析と介入のためのプラットフォーム
- Authors: Yang Xiao, Jinlan Fu, Weizhe Yuan, Vijay Viswanathan, Zhoumianze Liu,
Yixin Liu, Graham Neubig and Pengfei Liu
- Abstract要約: DataLabは統一されたデータ指向プラットフォームであり、ユーザはデータの特徴をインタラクティブに分析することができる。
ツールネームには、データセットレコメンデーションとグローバルビジョン分析のための機能がある。
これまでのところ、DataLabは1,715のデータセットと3,583の変換バージョンをカバーしている。
- 参考スコア(独自算出の注目度): 96.75253335629534
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Despite data's crucial role in machine learning, most existing tools and
research tend to focus on systems on top of existing data rather than how to
interpret and manipulate data. In this paper, we propose DataLab, a unified
data-oriented platform that not only allows users to interactively analyze the
characteristics of data, but also provides a standardized interface for
different data processing operations. Additionally, in view of the ongoing
proliferation of datasets, \toolname has features for dataset recommendation
and global vision analysis that help researchers form a better view of the data
ecosystem. So far, DataLab covers 1,715 datasets and 3,583 of its transformed
version (e.g., hyponyms replacement), where 728 datasets support various
analyses (e.g., with respect to gender bias) with the help of 140M samples
annotated by 318 feature functions. DataLab is under active development and
will be supported going forward. We have released a web platform, web API,
Python SDK, PyPI published package and online documentation, which hopefully,
can meet the diverse needs of researchers.
- Abstract(参考訳): 機械学習におけるデータの役割は重要であるが、既存のツールや研究の多くは、データの解釈や操作ではなく、既存のデータに基づくシステムに焦点を当てている。
本稿では,ユーザがデータの特徴をインタラクティブに分析できるだけでなく,異なるデータ処理操作のための標準化されたインターフェースを提供する,統一データ指向プラットフォームDataLabを提案する。
さらに、データセットの普及が進行中であるという点では、データセットレコメンデーションとグローバルビジョン分析の機能を備えており、研究者がデータエコシステムをよりよく見るのに役立つ。
これまでdatalabは、1,715のデータセットと3,583の変換されたバージョン(例:hyponyms置換)をカバーしており、728のデータセットは318の機能関数でアノテートされた140万のサンプルの助けを借りて、さまざまな分析(性別バイアスなど)をサポートしている。
DataLabは開発中であり、今後サポートされる予定である。
私たちはwebプラットフォーム、web api、python sdk、pypiが公開したパッケージおよびオンラインドキュメントをリリースしました。
関連論文リスト
- trajdata: A Unified Interface to Multiple Human Trajectory Datasets [32.93180256927027]
複数の人的トラジェクトリデータセットに対する統一インターフェースであるtrajdataを提案する。
Trajdataは、トラジェクトリとマップデータのためのシンプルで均一で効率的な表現とAPIを提供する。
論文 参考訳(メタデータ) (2023-07-26T02:45:59Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - DataFinder: Scientific Dataset Recommendation from Natural Language
Descriptions [100.52917027038369]
我々は、短い自然言語記述を与えられたデータセットを推奨するタスクを運用する。
この作業を容易にするために、我々は、より大規模な自動構築トレーニングセットと、より少ない専門家によるアノテート評価セットからなるDataFinderデータセットを構築した。
このシステムは、DataFinderデータセットに基づいてトレーニングされ、既存のサードパーティのデータセット検索エンジンよりも関連性の高い検索結果を見つける。
論文 参考訳(メタデータ) (2023-05-26T05:22:36Z) - Demonstration of InsightPilot: An LLM-Empowered Automated Data
Exploration System [48.62158108517576]
本稿では,データ探索プロセスの簡略化を目的とした自動データ探索システムであるInsightPilotを紹介する。
InsightPilotは、理解、要約、説明などの適切な分析意図を自動的に選択する。
簡単に言うと、IQueryはデータ分析操作の抽象化と自動化であり、データアナリストのアプローチを模倣しています。
論文 参考訳(メタデータ) (2023-04-02T07:27:49Z) - Data+Shift: Supporting visual investigation of data distribution shifts
by data scientists [1.6311150636417262]
Data+Shiftは、データ機能のシフトの根底にある要因を調査するタスクにおいて、データサイエンティストをサポートするビジュアル分析ツールである。
我々は、データサイエンティストが不正検出のユースケースにこのツールを使用したシンクオード実験で、我々のアプローチを検証した。
論文 参考訳(メタデータ) (2022-04-29T11:50:25Z) - Simplified Data Wrangling with ir_datasets [37.558383796758356]
ir_datasesは、IR(Information Retrieval)実験で使用されるデータセット上の典型的な操作を取得、管理、実行するためのツールです。
このツールは、多数のIRデータセットとベンチマークにpythonとコマンドラインインターフェースを提供する。
論文 参考訳(メタデータ) (2021-03-03T09:38:36Z) - MusPy: A Toolkit for Symbolic Music Generation [32.01713268702699]
MusPyは、シンボリック音楽生成のためのオープンソースのPythonライブラリである。
本稿では,現在MusPyが支援している11のデータセットの統計的解析について述べる。
論文 参考訳(メタデータ) (2020-08-05T06:16:13Z) - Open Graph Benchmark: Datasets for Machine Learning on Graphs [86.96887552203479]
スケーラブルで堅牢で再現可能なグラフ機械学習(ML)の研究を容易にするために,Open Graph Benchmark(OGB)を提案する。
OGBデータセットは大規模で、複数の重要なグラフMLタスクを含み、さまざまなドメインをカバーする。
各データセットに対して,有意義なアプリケーション固有のデータ分割と評価指標を用いた統一評価プロトコルを提供する。
論文 参考訳(メタデータ) (2020-05-02T03:09:50Z) - PyODDS: An End-to-end Outlier Detection System with Automated Machine
Learning [55.32009000204512]
PyODDSは、データベースサポート付きアウトレイラ検出のための、エンドツーエンドのPythonシステムである。
具体的には,探索空間を外乱検出パイプラインで定義し,与えられた探索空間内で探索戦略を作成する。
また、データサイエンスや機械学習のバックグラウンドの有無に関わらず、統一されたインターフェイスと視覚化を提供する。
論文 参考訳(メタデータ) (2020-03-12T03:30:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。