Fugu-MT 論文翻訳(概要): DataLab: A Platform for Data Analysis and Intervention

論文の概要: DataLab: A Platform for Data Analysis and Intervention

arxiv url: http://arxiv.org/abs/2202.12875v1
Date: Fri, 25 Feb 2022 18:32:19 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-28 14:09:41.643675
Title: DataLab: A Platform for Data Analysis and Intervention
Title（参考訳）: DataLab: データ分析と介入のためのプラットフォーム
Authors: Yang Xiao, Jinlan Fu, Weizhe Yuan, Vijay Viswanathan, Zhoumianze Liu, Yixin Liu, Graham Neubig and Pengfei Liu
Abstract要約: DataLabは統一されたデータ指向プラットフォームであり、ユーザはデータの特徴をインタラクティブに分析することができる。ツールネームには、データセットレコメンデーションとグローバルビジョン分析のための機能がある。これまでのところ、DataLabは1,715のデータセットと3,583の変換バージョンをカバーしている。
参考スコア（独自算出の注目度）: 96.75253335629534
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Despite data's crucial role in machine learning, most existing tools and research tend to focus on systems on top of existing data rather than how to interpret and manipulate data. In this paper, we propose DataLab, a unified data-oriented platform that not only allows users to interactively analyze the characteristics of data, but also provides a standardized interface for different data processing operations. Additionally, in view of the ongoing proliferation of datasets, \toolname has features for dataset recommendation and global vision analysis that help researchers form a better view of the data ecosystem. So far, DataLab covers 1,715 datasets and 3,583 of its transformed version (e.g., hyponyms replacement), where 728 datasets support various analyses (e.g., with respect to gender bias) with the help of 140M samples annotated by 318 feature functions. DataLab is under active development and will be supported going forward. We have released a web platform, web API, Python SDK, PyPI published package and online documentation, which hopefully, can meet the diverse needs of researchers.
Abstract（参考訳）: 機械学習におけるデータの役割は重要であるが、既存のツールや研究の多くは、データの解釈や操作ではなく、既存のデータに基づくシステムに焦点を当てている。本稿では,ユーザがデータの特徴をインタラクティブに分析できるだけでなく,異なるデータ処理操作のための標準化されたインターフェースを提供する,統一データ指向プラットフォームDataLabを提案する。さらに、データセットの普及が進行中であるという点では、データセットレコメンデーションとグローバルビジョン分析の機能を備えており、研究者がデータエコシステムをよりよく見るのに役立つ。これまでdatalabは、1,715のデータセットと3,583の変換されたバージョン(例:hyponyms置換)をカバーしており、728のデータセットは318の機能関数でアノテートされた140万のサンプルの助けを借りて、さまざまな分析(性別バイアスなど)をサポートしている。 DataLabは開発中であり、今後サポートされる予定である。私たちはwebプラットフォーム、web api、python sdk、pypiが公開したパッケージおよびオンラインドキュメントをリリースしました。

関連論文リスト

OpenDataArena: A Fair and Open Arena for Benchmarking Post-Training Dataset Value [74.80873109856563]
OpenDataArena(ODA)は、トレーニング後のデータの本質的な価値をベンチマークするために設計された、総合的でオープンなプラットフォームである。 ODAは4つの主要な柱からなる包括的なエコシステムを確立している。 (i) 多様なモデル間で公平でオープンな比較を保証する統一的なトレーニング評価パイプライン、 (ii) 異なる軸数に沿ってデータ品質をプロファイリングする多次元スコアリングフレームワーク、 (iii) データセットの系図を視覚化してコンポーネントソースを識別するインタラクティブなデータ系統探索である。
論文参考訳（メタデータ） (2025-12-16T03:33:24Z)
MLPrE -- A tool for preprocessing and exploratory data analysis prior to machine learning model construction [0.24629531282150877]
本稿では,機械学習の前処理と探索データ解析,DatarEについて述べる。 DataFramesは処理中にデータを保持し、スケーラビリティを確保するために利用されました。合計69のステージがintorEとして実装され、6つの多様なデータセットを使用して重要なステージをハイライトし、デモした。
論文参考訳（メタデータ） (2025-10-29T17:52:39Z)
Making Sense of Data in the Wild: Data Analysis Automation at Scale [0.1747623282473278]
本稿では,インテリジェントエージェントと検索拡張生成を組み合わせることで,データ解析,データセットキュレーション,インデックス作成を大規模に自動化する手法を提案する。提案手法により,より詳細なデータセット記述,より高いヒット率,データセット検索タスクの多様性が得られた。
論文参考訳（メタデータ） (2025-01-27T10:04:10Z)
OpenDataLab: Empowering General Artificial Intelligence with Open Datasets [53.22840149601411]
本稿では,多様なデータソース間のギャップと統一データ処理の必要性を埋めるプラットフォームであるOpenDataLabを紹介する。 OpenDataLabは、幅広いオープンソースのAIデータセットを統合し、インテリジェントクエリと高速ダウンロードサービスを通じて、データ取得効率を向上させる。我々は,OpenDataLabが人工知能(AGI)の研究を大幅に促進し,関連するAI分野の進歩を促進することを期待する。
論文参考訳（メタデータ） (2024-06-04T10:42:01Z)
DataFinder: Scientific Dataset Recommendation from Natural Language Descriptions [100.52917027038369]
我々は、短い自然言語記述を与えられたデータセットを推奨するタスクを運用する。この作業を容易にするために、我々は、より大規模な自動構築トレーニングセットと、より少ない専門家によるアノテート評価セットからなるDataFinderデータセットを構築した。このシステムは、DataFinderデータセットに基づいてトレーニングされ、既存のサードパーティのデータセット検索エンジンよりも関連性の高い検索結果を見つける。
論文参考訳（メタデータ） (2023-05-26T05:22:36Z)
Demonstration of InsightPilot: An LLM-Empowered Automated Data Exploration System [48.62158108517576]
本稿では,データ探索プロセスの簡略化を目的とした自動データ探索システムであるInsightPilotを紹介する。 InsightPilotは、理解、要約、説明などの適切な分析意図を自動的に選択する。簡単に言うと、IQueryはデータ分析操作の抽象化と自動化であり、データアナリストのアプローチを模倣しています。
論文参考訳（メタデータ） (2023-04-02T07:27:49Z)
Data+Shift: Supporting visual investigation of data distribution shifts by data scientists [1.6311150636417262]
Data+Shiftは、データ機能のシフトの根底にある要因を調査するタスクにおいて、データサイエンティストをサポートするビジュアル分析ツールである。我々は、データサイエンティストが不正検出のユースケースにこのツールを使用したシンクオード実験で、我々のアプローチを検証した。
論文参考訳（メタデータ） (2022-04-29T11:50:25Z)
Simplified Data Wrangling with ir_datasets [37.558383796758356]
ir_datasesは、IR(Information Retrieval)実験で使用されるデータセット上の典型的な操作を取得、管理、実行するためのツールです。このツールは、多数のIRデータセットとベンチマークにpythonとコマンドラインインターフェースを提供する。
論文参考訳（メタデータ） (2021-03-03T09:38:36Z)
MusPy: A Toolkit for Symbolic Music Generation [32.01713268702699]
MusPyは、シンボリック音楽生成のためのオープンソースのPythonライブラリである。本稿では,現在MusPyが支援している11のデータセットの統計的解析について述べる。
論文参考訳（メタデータ） (2020-08-05T06:16:13Z)
Open Graph Benchmark: Datasets for Machine Learning on Graphs [86.96887552203479]
スケーラブルで堅牢で再現可能なグラフ機械学習(ML)の研究を容易にするために,Open Graph Benchmark(OGB)を提案する。 OGBデータセットは大規模で、複数の重要なグラフMLタスクを含み、さまざまなドメインをカバーする。各データセットに対して,有意義なアプリケーション固有のデータ分割と評価指標を用いた統一評価プロトコルを提供する。
論文参考訳（メタデータ） (2020-05-02T03:09:50Z)
PyODDS: An End-to-end Outlier Detection System with Automated Machine Learning [55.32009000204512]
PyODDSは、データベースサポート付きアウトレイラ検出のための、エンドツーエンドのPythonシステムである。具体的には,探索空間を外乱検出パイプラインで定義し,与えられた探索空間内で探索戦略を作成する。また、データサイエンスや機械学習のバックグラウンドの有無に関わらず、統一されたインターフェイスと視覚化を提供する。
論文参考訳（メタデータ） (2020-03-12T03:30:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。