論文の概要: Dataset Factory: A Toolchain For Generative Computer Vision Datasets
- arxiv url: http://arxiv.org/abs/2309.11608v1
- Date: Wed, 20 Sep 2023 19:43:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 17:53:36.662919
- Title: Dataset Factory: A Toolchain For Generative Computer Vision Datasets
- Title(参考訳): Dataset Factory: 生成するコンピュータビジョンデータセットのためのツールチェーン
- Authors: Daniel Kharitonov and Ryan Turner
- Abstract要約: メタデータからサンプルの保存と処理を分離する「データセットファクトリ」を提案する。
これにより、機械学習チームや個々の研究者に対して、大規模にデータ中心の操作が可能になる。
- 参考スコア(独自算出の注目度): 0.9013233848500058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative AI workflows heavily rely on data-centric tasks - such as
filtering samples by annotation fields, vector distances, or scores produced by
custom classifiers. At the same time, computer vision datasets are quickly
approaching petabyte volumes, rendering data wrangling difficult. In addition,
the iterative nature of data preparation necessitates robust dataset sharing
and versioning mechanisms, both of which are hard to implement ad-hoc. To solve
these challenges, we propose a "dataset factory" approach that separates the
storage and processing of samples from metadata and enables data-centric
operations at scale for machine learning teams and individual researchers.
- Abstract(参考訳): ジェネレーティブAIワークフローは、アノテーションフィールドによるサンプルのフィルタリング、ベクトル距離、カスタム分類器によるスコアなど、データ中心のタスクに大きく依存している。
同時に、コンピュータビジョンデータセットはペタバイト単位に急速に接近し、データのレンダリングが困難になっている。
さらに、データ準備の反復的な性質は、堅牢なデータセット共有とバージョニングメカニズムを必要とし、どちらもアドホックを実装するのが難しい。
これらの課題を解決するために,我々は,サンプルの保存と処理をメタデータから分離し,機械学習チームや個々の研究者を対象とした大規模データ中心操作を可能にする「データセットファクトリ」アプローチを提案する。
関連論文リスト
- Automatic Data Curation for Self-Supervised Learning: A Clustering-Based Approach [36.47860223750303]
自己教師付き事前学習のための高品質データセットの自動キュレーションの問題点を考察する。
これらの基準をすべて満たしたクラスタリングに基づく手法を提案する。
我々の方法は、大規模で多様なデータリポジトリ上で、$k$-meansの連続的かつ階層的なアプリケーションを含む。
論文 参考訳(メタデータ) (2024-05-24T14:58:51Z) - Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - A Configurable Library for Generating and Manipulating Maze Datasets [0.9268994664916388]
迷路は様々な生成アルゴリズムのために優れたテストベッドとして機能する。
我々は、maze-solvingタスクからなるデータセットの生成、処理、視覚化のための包括的なライブラリである、$textttmaze-dataset$を提示する。
論文 参考訳(メタデータ) (2023-09-19T10:20:11Z) - DataAssist: A Machine Learning Approach to Data Cleaning and Preparation [0.0]
DataAssistは、MLインフォームドメソッドを使用してデータセットの品質を向上させる自動データ準備およびクリーニングプラットフォームである。
我々のツールは、経済、ビジネス、予測アプリケーションなど、さまざまな分野に適用でき、データの浄化と準備に費やした時間の50%以上を節約できる。
論文 参考訳(メタデータ) (2023-07-14T01:50:53Z) - Fingerprinting and Building Large Reproducible Datasets [3.2873782624127843]
提案手法は,大規模なデータセットの作成を容易にし,その証明を確実にするツール支援手法である。
抽出プロセスに提供されたデータセットを特徴付けるユニークな指紋を定義する方法を提案する。
論文 参考訳(メタデータ) (2023-06-20T08:59:33Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Designing Data: Proactive Data Collection and Iteration for Machine
Learning [12.295169687537395]
データ収集の多様性の欠如は、機械学習(ML)アプリケーションに重大な障害を引き起こしている。
データセットが実世界の変動性を反映しているかどうかを評価するためには、データ収集、イテレーション、モデルのトレーニングを追跡および管理する新しい方法が必要である。
論文 参考訳(メタデータ) (2023-01-24T21:40:29Z) - Privacy-Preserving Machine Learning for Collaborative Data Sharing via
Auto-encoder Latent Space Embeddings [57.45332961252628]
データ共有プロセスにおけるプライバシ保護機械学習は、極めて重要なタスクである。
本稿では、オートエンコーダによる表現学習を用いて、プライバシーを保護した組込みデータを生成する革新的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-10T17:36:58Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Detection Hub: Unifying Object Detection Datasets via Query Adaptation
on Language Embedding [137.3719377780593]
新しいデザイン(De Detection Hubという名前)は、データセット認識とカテゴリ整列である。
データセットの不整合を緩和し、検出器が複数のデータセットをまたいで学習するための一貫性のあるガイダンスを提供する。
データセット間のカテゴリは、ワンホットなカテゴリ表現を単語埋め込みに置き換えることで、意味的に統一された空間に整列される。
論文 参考訳(メタデータ) (2022-06-07T17:59:44Z) - REGRAD: A Large-Scale Relational Grasp Dataset for Safe and
Object-Specific Robotic Grasping in Clutter [52.117388513480435]
本稿では,オブジェクト間の関係のモデル化を継続するregradという新しいデータセットを提案する。
データセットは2D画像と3Dポイントクラウドの両方で収集されます。
ユーザは、好きなだけ多くのデータを生成するために、自由に独自のオブジェクトモデルをインポートできる。
論文 参考訳(メタデータ) (2021-04-29T05:31:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。