論文の概要: Kubric: A scalable dataset generator
- arxiv url: http://arxiv.org/abs/2203.03570v1
- Date: Mon, 7 Mar 2022 18:13:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-08 17:04:13.134562
- Title: Kubric: A scalable dataset generator
- Title(参考訳): Kubric: スケーラブルなデータセットジェネレータ
- Authors: Klaus Greff, Francois Belletti, Lucas Beyer, Carl Doersch, Yilun Du,
Daniel Duckworth, David J. Fleet, Dan Gnanapragasam, Florian Golemo, Charles
Herrmann, Thomas Kipf, Abhijit Kundu, Dmitry Lagun, Issam Laradji, Hsueh-Ti
(Derek) Liu, Henning Meyer, Yishu Miao, Derek Nowrouzezahrai, Cengiz
Oztireli, Etienne Pot, Noha Radwan, Daniel Rebain, Sara Sabour, Mehdi S. M.
Sajjadi, Matan Sela, Vincent Sitzmann, Austin Stone, Deqing Sun, Suhani Vora,
Ziyu Wang, Tianhao Wu, Kwang Moo Yi, Fangcheng Zhong, Andrea Tagliasacchi
- Abstract要約: KubricはPythonフレームワークで、PyBulletやBlenderとインターフェースして写真リアリスティックなシーンを生成する。
本研究では,3次元NeRFモデルの研究から光フロー推定まで,13種類の異なるデータセットを提示することで,Kubricの有効性を実証する。
- 参考スコア(独自算出の注目度): 73.78485189435729
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data is the driving force of machine learning, with the amount and quality of
training data often being more important for the performance of a system than
architecture and training details. But collecting, processing and annotating
real data at scale is difficult, expensive, and frequently raises additional
privacy, fairness and legal concerns. Synthetic data is a powerful tool with
the potential to address these shortcomings: 1) it is cheap 2) supports rich
ground-truth annotations 3) offers full control over data and 4) can circumvent
or mitigate problems regarding bias, privacy and licensing. Unfortunately,
software tools for effective data generation are less mature than those for
architecture design and training, which leads to fragmented generation efforts.
To address these problems we introduce Kubric, an open-source Python framework
that interfaces with PyBullet and Blender to generate photo-realistic scenes,
with rich annotations, and seamlessly scales to large jobs distributed over
thousands of machines, and generating TBs of data. We demonstrate the
effectiveness of Kubric by presenting a series of 13 different generated
datasets for tasks ranging from studying 3D NeRF models to optical flow
estimation. We release Kubric, the used assets, all of the generation code, as
well as the rendered datasets for reuse and modification.
- Abstract(参考訳): データとは機械学習の推進力であり、トレーニングデータの量と品質は、アーキテクチャやトレーニングの詳細よりもシステムのパフォーマンスにとって重要であることが多い。
しかし、実際のデータを大規模に収集、処理、注釈することは難しく、費用がかかり、しばしばプライバシー、公正、法的懸念が高まる。
合成データは、これらの欠点に対処できる強力なツールです。
1)安い
2) リッチな接地構文アノテーションをサポート
3)データを完全に制御し、
4) バイアス、プライバシー、ライセンスに関する問題を回避または緩和することができる。
残念なことに、効率的なデータ生成のためのソフトウェアツールは、アーキテクチャ設計やトレーニングのツールほど成熟していないため、生成の断片化に繋がる。
これらの問題に対処するために、オープンソースのPythonフレームワークKubricを紹介します。これは、PyBulletとBlenderとインターフェースして、リッチなアノテーションでフォトリアリスティックなシーンを生成し、数千台のマシンに分散された大規模なジョブにシームレスにスケールし、データTBを生成する。
本研究では,3次元NeRFモデルの研究から光フロー推定まで,13種類の異なるデータセットを提示することで,Kubricの有効性を実証する。
使用済みの資産、すべての生成コード、および再利用と修正のためのレンダリングデータセットであるKubricをリリースします。
関連論文リスト
- Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data [92.84248365953216]
この研究は、ロバストな単分子深度推定のための非常に実用的な解であるDepth Anythingを提示する。
データエンジンを設計し、大規模な未ラベルデータの収集と注釈付けを自動的に行うことにより、データセットをスケールアップします。
6つのパブリックデータセットとランダムにキャプチャされた写真を含む、ゼロショットの機能を広範囲に評価する。
論文 参考訳(メタデータ) (2024-01-19T18:59:52Z) - Solving Data Quality Problems with Desbordante: a Demo [35.75243108496634]
Desbordanteはオープンソースのデータプロファイラで、このギャップを埋めることを目指している。
産業アプリケーションに重点を置いて構築されており、効率的でスケーラブルで、クラッシュに対して回復力があり、説明を提供する。
このデモでは、エンドユーザがさまざまなデータ品質問題を解決できるいくつかのシナリオを紹介します。
論文 参考訳(メタデータ) (2023-07-27T15:26:26Z) - A New Benchmark: On the Utility of Synthetic Data with Blender for Bare
Supervised Learning and Downstream Domain Adaptation [42.2398858786125]
コンピュータビジョンにおけるディープラーニングは、大規模ラベル付きトレーニングデータの価格で大きな成功を収めた。
制御不能なデータ収集プロセスは、望ましくない重複が存在する可能性のある非IIDトレーニングおよびテストデータを生成する。
これを回避するために、ドメインランダム化による3Dレンダリングによる合成データを生成する方法がある。
論文 参考訳(メタデータ) (2023-03-16T09:03:52Z) - Optimizing Data Collection for Machine Learning [87.37252958806856]
現代のディープラーニングシステムは、素晴らしいパフォーマンスを達成するために巨大なデータセットを必要とします。
過度に収集したデータは不要な現在のコストを発生させる一方、過度に収集したデータは将来のコストと遅延を引き起こす可能性がある。
本稿では,データ収集を形式的最適データ収集問題としてモデル化するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-10-03T21:19:05Z) - WorldGen: A Large Scale Generative Simulator [12.886022807173337]
我々は、無数の構造化された非構造化の3Dフォトリアリスティックシーンを自律的に生成する、オープンソースのフレームワークWorldGenを紹介する。
WorldGenは、ユーザに対して、テクスチャ、オブジェクト構造、モーション、カメラ、レンズプロパティなどの機能への完全なアクセスとコントロールを提供して、より汎用性を高めている。
論文 参考訳(メタデータ) (2022-10-03T05:07:42Z) - Data Collection and Quality Challenges in Deep Learning: A Data-Centric
AI Perspective [16.480530590466472]
データ中心のAIプラクティスが主流になりつつある。
現実世界の多くのデータセットは小さく、汚く、偏りがあり、毒まみれである。
データ品質については、データ検証とデータクリーニング技術について研究する。
論文 参考訳(メタデータ) (2021-12-13T03:57:36Z) - Understanding the World Through Action [91.3755431537592]
ラベルのないデータを利用するための汎用的で原則的で強力なフレームワークは、強化学習から導き出すことができると私は主張する。
このような手順が、下流の潜在的なタスクとどのように密接に一致しているかについて論じます。
論文 参考訳(メタデータ) (2021-10-24T22:33:52Z) - REGRAD: A Large-Scale Relational Grasp Dataset for Safe and
Object-Specific Robotic Grasping in Clutter [52.117388513480435]
本稿では,オブジェクト間の関係のモデル化を継続するregradという新しいデータセットを提案する。
データセットは2D画像と3Dポイントクラウドの両方で収集されます。
ユーザは、好きなだけ多くのデータを生成するために、自由に独自のオブジェクトモデルをインポートできる。
論文 参考訳(メタデータ) (2021-04-29T05:31:21Z) - UnrealROX+: An Improved Tool for Acquiring Synthetic Data from Virtual
3D Environments [14.453602631430508]
ロボット画像から合成データを生成するためのツールであるUnrealROXの改良版を紹介します。
UnrealROX+には、Deep Learningフレームワークから仮想環境と対話するalbedoやPython APIを生成する、といった新機能が含まれている。
論文 参考訳(メタデータ) (2021-04-23T18:45:42Z) - Laplacian Denoising Autoencoder [114.21219514831343]
本稿では,新しいタイプの自動符号化器を用いてデータ表現を学習することを提案する。
勾配領域における潜伏クリーンデータを破損させて雑音入力データを生成する。
いくつかのビジュアルベンチマークの実験では、提案されたアプローチでより良い表現が学べることが示されている。
論文 参考訳(メタデータ) (2020-03-30T16:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。