Fugu-MT 論文翻訳(概要): Kubric: A scalable dataset generator

論文の概要: Kubric: A scalable dataset generator

arxiv url: http://arxiv.org/abs/2203.03570v1
Date: Mon, 7 Mar 2022 18:13:59 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-08 17:04:13.134562
Title: Kubric: A scalable dataset generator
Title（参考訳）: Kubric: スケーラブルなデータセットジェネレータ
Authors: Klaus Greff, Francois Belletti, Lucas Beyer, Carl Doersch, Yilun Du, Daniel Duckworth, David J. Fleet, Dan Gnanapragasam, Florian Golemo, Charles Herrmann, Thomas Kipf, Abhijit Kundu, Dmitry Lagun, Issam Laradji, Hsueh-Ti (Derek) Liu, Henning Meyer, Yishu Miao, Derek Nowrouzezahrai, Cengiz Oztireli, Etienne Pot, Noha Radwan, Daniel Rebain, Sara Sabour, Mehdi S. M. Sajjadi, Matan Sela, Vincent Sitzmann, Austin Stone, Deqing Sun, Suhani Vora, Ziyu Wang, Tianhao Wu, Kwang Moo Yi, Fangcheng Zhong, Andrea Tagliasacchi
Abstract要約: KubricはPythonフレームワークで、PyBulletやBlenderとインターフェースして写真リアリスティックなシーンを生成する。本研究では,3次元NeRFモデルの研究から光フロー推定まで,13種類の異なるデータセットを提示することで,Kubricの有効性を実証する。
参考スコア（独自算出の注目度）: 73.78485189435729
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Data is the driving force of machine learning, with the amount and quality of training data often being more important for the performance of a system than architecture and training details. But collecting, processing and annotating real data at scale is difficult, expensive, and frequently raises additional privacy, fairness and legal concerns. Synthetic data is a powerful tool with the potential to address these shortcomings: 1) it is cheap 2) supports rich ground-truth annotations 3) offers full control over data and 4) can circumvent or mitigate problems regarding bias, privacy and licensing. Unfortunately, software tools for effective data generation are less mature than those for architecture design and training, which leads to fragmented generation efforts. To address these problems we introduce Kubric, an open-source Python framework that interfaces with PyBullet and Blender to generate photo-realistic scenes, with rich annotations, and seamlessly scales to large jobs distributed over thousands of machines, and generating TBs of data. We demonstrate the effectiveness of Kubric by presenting a series of 13 different generated datasets for tasks ranging from studying 3D NeRF models to optical flow estimation. We release Kubric, the used assets, all of the generation code, as well as the rendered datasets for reuse and modification.
Abstract（参考訳）: データとは機械学習の推進力であり、トレーニングデータの量と品質は、アーキテクチャやトレーニングの詳細よりもシステムのパフォーマンスにとって重要であることが多い。しかし、実際のデータを大規模に収集、処理、注釈することは難しく、費用がかかり、しばしばプライバシー、公正、法的懸念が高まる。合成データは、これらの欠点に対処できる強力なツールです。 1)安い 2) リッチな接地構文アノテーションをサポート 3)データを完全に制御し、 4) バイアス、プライバシー、ライセンスに関する問題を回避または緩和することができる。残念なことに、効率的なデータ生成のためのソフトウェアツールは、アーキテクチャ設計やトレーニングのツールほど成熟していないため、生成の断片化に繋がる。これらの問題に対処するために、オープンソースのPythonフレームワークKubricを紹介します。これは、PyBulletとBlenderとインターフェースして、リッチなアノテーションでフォトリアリスティックなシーンを生成し、数千台のマシンに分散された大規模なジョブにシームレスにスケールし、データTBを生成する。本研究では,3次元NeRFモデルの研究から光フロー推定まで,13種類の異なるデータセットを提示することで,Kubricの有効性を実証する。使用済みの資産、すべての生成コード、および再利用と修正のためのレンダリングデータセットであるKubricをリリースします。

関連論文リスト

Anymate: A Dataset and Baselines for Learning 3D Object Rigging [18.973312365787137]
本稿では,230Kの3Dアセットの大規模データセットと,専門家によるリギングとスキン情報の組み合わせについて述べる。本稿では,関節,接続性,およびスキンウェイト予測のための3つの逐次モジュールを用いた学習ベースの自動リギングフレームワークを提案する。我々のモデルは既存の手法を著しく上回り、自動化リギングとスキンニングにおける将来の手法を比較する基盤を提供する。
論文参考訳（メタデータ） (2025-05-09T17:59:33Z)
Data-Juicer 2.0: Cloud-Scale Adaptive Data Processing for Foundation Models [64.28420991770382]
我々は,100以上の演算子が支援する実りあるデータ処理機能を提供する新しいシステムであるData-Juicer 2.0を提案する。このシステムは、さまざまな研究努力、実用的なアプリケーション、Alibaba Cloud PAIのような現実世界の製品で、公開され、積極的に維持され、広く採用されている。
論文参考訳（メタデータ） (2024-12-23T08:29:57Z)
Dataset Growth [59.68869191071907]
InfoGrowthは、データのクリーニングとセレクションのための効率的なオンラインアルゴリズムである。シングルモーダルタスクとマルチモーダルタスクの両方において、データ品質/効率を改善することができる。
論文参考訳（メタデータ） (2024-05-28T16:43:57Z)
AI Competitions and Benchmarks: Dataset Development [42.164845505628506]
本章では,我々の実践経験に富んだ,確立した方法論ツールの概要について概観する。データセット開発に関わるタスクを開発し、その効果的な管理に関する洞察を提供する。次に、データ収集、変換、品質評価を含む実装プロセスの詳細について述べる。
論文参考訳（メタデータ） (2024-04-15T12:01:42Z)
Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data [87.61900472933523]
この研究は、ロバストな単分子深度推定のための非常に実用的な解であるDepth Anythingを提示する。データエンジンを設計し、大規模な未ラベルデータの収集と注釈付けを自動的に行うことにより、データセットをスケールアップします。 6つのパブリックデータセットとランダムにキャプチャされた写真を含む、ゼロショットの機能を広範囲に評価する。
論文参考訳（メタデータ） (2024-01-19T18:59:52Z)
Solving Data Quality Problems with Desbordante: a Demo [35.75243108496634]
Desbordanteはオープンソースのデータプロファイラで、このギャップを埋めることを目指している。産業アプリケーションに重点を置いて構築されており、効率的でスケーラブルで、クラッシュに対して回復力があり、説明を提供する。このデモでは、エンドユーザがさまざまなデータ品質問題を解決できるいくつかのシナリオを紹介します。
論文参考訳（メタデータ） (2023-07-27T15:26:26Z)
Data-Copilot: Bridging Billions of Data and Humans with Autonomous Workflow [49.724842920942024]
金融、気象学、エネルギーといった産業は毎日大量のデータを生み出している。本研究では,データ分析エージェントであるData-Copilotを提案する。
論文参考訳（メタデータ） (2023-06-12T16:12:56Z)
A New Benchmark: On the Utility of Synthetic Data with Blender for Bare Supervised Learning and Downstream Domain Adaptation [42.2398858786125]
コンピュータビジョンにおけるディープラーニングは、大規模ラベル付きトレーニングデータの価格で大きな成功を収めた。制御不能なデータ収集プロセスは、望ましくない重複が存在する可能性のある非IIDトレーニングおよびテストデータを生成する。これを回避するために、ドメインランダム化による3Dレンダリングによる合成データを生成する方法がある。
論文参考訳（メタデータ） (2023-03-16T09:03:52Z)
WorldGen: A Large Scale Generative Simulator [12.886022807173337]
我々は、無数の構造化された非構造化の3Dフォトリアリスティックシーンを自律的に生成する、オープンソースのフレームワークWorldGenを紹介する。 WorldGenは、ユーザに対して、テクスチャ、オブジェクト構造、モーション、カメラ、レンズプロパティなどの機能への完全なアクセスとコントロールを提供して、より汎用性を高めている。
論文参考訳（メタデータ） (2022-10-03T05:07:42Z)
REGRAD: A Large-Scale Relational Grasp Dataset for Safe and Object-Specific Robotic Grasping in Clutter [52.117388513480435]
本稿では,オブジェクト間の関係のモデル化を継続するregradという新しいデータセットを提案する。データセットは2D画像と3Dポイントクラウドの両方で収集されます。ユーザは、好きなだけ多くのデータを生成するために、自由に独自のオブジェクトモデルをインポートできる。
論文参考訳（メタデータ） (2021-04-29T05:31:21Z)
UnrealROX+: An Improved Tool for Acquiring Synthetic Data from Virtual 3D Environments [14.453602631430508]
ロボット画像から合成データを生成するためのツールであるUnrealROXの改良版を紹介します。 UnrealROX+には、Deep Learningフレームワークから仮想環境と対話するalbedoやPython APIを生成する、といった新機能が含まれている。
論文参考訳（メタデータ） (2021-04-23T18:45:42Z)
Laplacian Denoising Autoencoder [114.21219514831343]
本稿では,新しいタイプの自動符号化器を用いてデータ表現を学習することを提案する。勾配領域における潜伏クリーンデータを破損させて雑音入力データを生成する。いくつかのビジュアルベンチマークの実験では、提案されたアプローチでより良い表現が学べることが示されている。
論文参考訳（メタデータ） (2020-03-30T16:52:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。