論文の概要: Kubric: A scalable dataset generator
- arxiv url: http://arxiv.org/abs/2203.03570v1
- Date: Mon, 7 Mar 2022 18:13:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-08 17:04:13.134562
- Title: Kubric: A scalable dataset generator
- Title(参考訳): Kubric: スケーラブルなデータセットジェネレータ
- Authors: Klaus Greff, Francois Belletti, Lucas Beyer, Carl Doersch, Yilun Du,
Daniel Duckworth, David J. Fleet, Dan Gnanapragasam, Florian Golemo, Charles
Herrmann, Thomas Kipf, Abhijit Kundu, Dmitry Lagun, Issam Laradji, Hsueh-Ti
(Derek) Liu, Henning Meyer, Yishu Miao, Derek Nowrouzezahrai, Cengiz
Oztireli, Etienne Pot, Noha Radwan, Daniel Rebain, Sara Sabour, Mehdi S. M.
Sajjadi, Matan Sela, Vincent Sitzmann, Austin Stone, Deqing Sun, Suhani Vora,
Ziyu Wang, Tianhao Wu, Kwang Moo Yi, Fangcheng Zhong, Andrea Tagliasacchi
- Abstract要約: KubricはPythonフレームワークで、PyBulletやBlenderとインターフェースして写真リアリスティックなシーンを生成する。
本研究では,3次元NeRFモデルの研究から光フロー推定まで,13種類の異なるデータセットを提示することで,Kubricの有効性を実証する。
- 参考スコア(独自算出の注目度): 73.78485189435729
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data is the driving force of machine learning, with the amount and quality of
training data often being more important for the performance of a system than
architecture and training details. But collecting, processing and annotating
real data at scale is difficult, expensive, and frequently raises additional
privacy, fairness and legal concerns. Synthetic data is a powerful tool with
the potential to address these shortcomings: 1) it is cheap 2) supports rich
ground-truth annotations 3) offers full control over data and 4) can circumvent
or mitigate problems regarding bias, privacy and licensing. Unfortunately,
software tools for effective data generation are less mature than those for
architecture design and training, which leads to fragmented generation efforts.
To address these problems we introduce Kubric, an open-source Python framework
that interfaces with PyBullet and Blender to generate photo-realistic scenes,
with rich annotations, and seamlessly scales to large jobs distributed over
thousands of machines, and generating TBs of data. We demonstrate the
effectiveness of Kubric by presenting a series of 13 different generated
datasets for tasks ranging from studying 3D NeRF models to optical flow
estimation. We release Kubric, the used assets, all of the generation code, as
well as the rendered datasets for reuse and modification.
- Abstract(参考訳): データとは機械学習の推進力であり、トレーニングデータの量と品質は、アーキテクチャやトレーニングの詳細よりもシステムのパフォーマンスにとって重要であることが多い。
しかし、実際のデータを大規模に収集、処理、注釈することは難しく、費用がかかり、しばしばプライバシー、公正、法的懸念が高まる。
合成データは、これらの欠点に対処できる強力なツールです。
1)安い
2) リッチな接地構文アノテーションをサポート
3)データを完全に制御し、
4) バイアス、プライバシー、ライセンスに関する問題を回避または緩和することができる。
残念なことに、効率的なデータ生成のためのソフトウェアツールは、アーキテクチャ設計やトレーニングのツールほど成熟していないため、生成の断片化に繋がる。
これらの問題に対処するために、オープンソースのPythonフレームワークKubricを紹介します。これは、PyBulletとBlenderとインターフェースして、リッチなアノテーションでフォトリアリスティックなシーンを生成し、数千台のマシンに分散された大規模なジョブにシームレスにスケールし、データTBを生成する。
本研究では,3次元NeRFモデルの研究から光フロー推定まで,13種類の異なるデータセットを提示することで,Kubricの有効性を実証する。
使用済みの資産、すべての生成コード、および再利用と修正のためのレンダリングデータセットであるKubricをリリースします。
関連論文リスト
- Dataset Growth [59.68869191071907]
InfoGrowthは、データのクリーニングとセレクションのための効率的なオンラインアルゴリズムである。
シングルモーダルタスクとマルチモーダルタスクの両方において、データ品質/効率を改善することができる。
論文 参考訳(メタデータ) (2024-05-28T16:43:57Z) - AI Competitions and Benchmarks: Dataset Development [42.164845505628506]
本章では,我々の実践経験に富んだ,確立した方法論ツールの概要について概観する。
データセット開発に関わるタスクを開発し、その効果的な管理に関する洞察を提供する。
次に、データ収集、変換、品質評価を含む実装プロセスの詳細について述べる。
論文 参考訳(メタデータ) (2024-04-15T12:01:42Z) - Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data [87.61900472933523]
この研究は、ロバストな単分子深度推定のための非常に実用的な解であるDepth Anythingを提示する。
データエンジンを設計し、大規模な未ラベルデータの収集と注釈付けを自動的に行うことにより、データセットをスケールアップします。
6つのパブリックデータセットとランダムにキャプチャされた写真を含む、ゼロショットの機能を広範囲に評価する。
論文 参考訳(メタデータ) (2024-01-19T18:59:52Z) - Solving Data Quality Problems with Desbordante: a Demo [35.75243108496634]
Desbordanteはオープンソースのデータプロファイラで、このギャップを埋めることを目指している。
産業アプリケーションに重点を置いて構築されており、効率的でスケーラブルで、クラッシュに対して回復力があり、説明を提供する。
このデモでは、エンドユーザがさまざまなデータ品質問題を解決できるいくつかのシナリオを紹介します。
論文 参考訳(メタデータ) (2023-07-27T15:26:26Z) - Data-Copilot: Bridging Billions of Data and Humans with Autonomous Workflow [49.724842920942024]
金融、気象学、エネルギーといった産業は毎日大量のデータを生み出している。
本研究では,データ分析エージェントであるData-Copilotを提案する。
論文 参考訳(メタデータ) (2023-06-12T16:12:56Z) - A New Benchmark: On the Utility of Synthetic Data with Blender for Bare
Supervised Learning and Downstream Domain Adaptation [42.2398858786125]
コンピュータビジョンにおけるディープラーニングは、大規模ラベル付きトレーニングデータの価格で大きな成功を収めた。
制御不能なデータ収集プロセスは、望ましくない重複が存在する可能性のある非IIDトレーニングおよびテストデータを生成する。
これを回避するために、ドメインランダム化による3Dレンダリングによる合成データを生成する方法がある。
論文 参考訳(メタデータ) (2023-03-16T09:03:52Z) - WorldGen: A Large Scale Generative Simulator [12.886022807173337]
我々は、無数の構造化された非構造化の3Dフォトリアリスティックシーンを自律的に生成する、オープンソースのフレームワークWorldGenを紹介する。
WorldGenは、ユーザに対して、テクスチャ、オブジェクト構造、モーション、カメラ、レンズプロパティなどの機能への完全なアクセスとコントロールを提供して、より汎用性を高めている。
論文 参考訳(メタデータ) (2022-10-03T05:07:42Z) - REGRAD: A Large-Scale Relational Grasp Dataset for Safe and
Object-Specific Robotic Grasping in Clutter [52.117388513480435]
本稿では,オブジェクト間の関係のモデル化を継続するregradという新しいデータセットを提案する。
データセットは2D画像と3Dポイントクラウドの両方で収集されます。
ユーザは、好きなだけ多くのデータを生成するために、自由に独自のオブジェクトモデルをインポートできる。
論文 参考訳(メタデータ) (2021-04-29T05:31:21Z) - UnrealROX+: An Improved Tool for Acquiring Synthetic Data from Virtual
3D Environments [14.453602631430508]
ロボット画像から合成データを生成するためのツールであるUnrealROXの改良版を紹介します。
UnrealROX+には、Deep Learningフレームワークから仮想環境と対話するalbedoやPython APIを生成する、といった新機能が含まれている。
論文 参考訳(メタデータ) (2021-04-23T18:45:42Z) - Laplacian Denoising Autoencoder [114.21219514831343]
本稿では,新しいタイプの自動符号化器を用いてデータ表現を学習することを提案する。
勾配領域における潜伏クリーンデータを破損させて雑音入力データを生成する。
いくつかのビジュアルベンチマークの実験では、提案されたアプローチでより良い表現が学べることが示されている。
論文 参考訳(メタデータ) (2020-03-30T16:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。