論文の概要: PUG: Photorealistic and Semantically Controllable Synthetic Data for
Representation Learning
- arxiv url: http://arxiv.org/abs/2308.03977v2
- Date: Wed, 13 Dec 2023 01:44:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 20:40:36.236648
- Title: PUG: Photorealistic and Semantically Controllable Synthetic Data for
Representation Learning
- Title(参考訳): PUG:表現学習のためのフォトリアリスティックでセマンティックに制御可能な合成データ
- Authors: Florian Bordes, Shashank Shekhar, Mark Ibrahim, Diane Bouchacourt,
Pascal Vincent, Ari S. Morcos
- Abstract要約: 制御性とリアリズムを両立する表現学習研究のための対話型環境を新たに提案する。
エンターテイメント業界で有名な強力なゲームエンジンであるUnreal Engineを使用して、表現学習のためのPUG環境とデータセットを生成します。
- 参考スコア(独自算出の注目度): 31.81199165450692
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthetic image datasets offer unmatched advantages for designing and
evaluating deep neural networks: they make it possible to (i) render as many
data samples as needed, (ii) precisely control each scene and yield granular
ground truth labels (and captions), (iii) precisely control distribution shifts
between training and testing to isolate variables of interest for sound
experimentation. Despite such promise, the use of synthetic image data is still
limited -- and often played down -- mainly due to their lack of realism. Most
works therefore rely on datasets of real images, which have often been scraped
from public images on the internet, and may have issues with regards to
privacy, bias, and copyright, while offering little control over how objects
precisely appear. In this work, we present a path to democratize the use of
photorealistic synthetic data: we develop a new generation of interactive
environments for representation learning research, that offer both
controllability and realism. We use the Unreal Engine, a powerful game engine
well known in the entertainment industry, to produce PUG (Photorealistic Unreal
Graphics) environments and datasets for representation learning. In this paper,
we demonstrate the potential of PUG to enable more rigorous evaluations of
vision models.
- Abstract(参考訳): 合成画像データセットは、ディープニューラルネットワークの設計と評価に不整合な利点を提供する。
i) 必要なだけ多くのデータサンプルをレンダリングする。
(ii)各場面を精密に制御し、細かな地上真理ラベル(及びキャプション)を付与する。
(iii)音実験の興味のある変数を分離するために、トレーニングとテストの間における分布の正確な制御を行う。
このような約束にもかかわらず、合成画像データの使用は、主に現実主義が欠如しているため、依然として制限されている。
それゆえ、ほとんどの作品は実際の画像のデータセットに依存しており、それはインターネット上の公開画像からしばしば取り除かれており、プライバシー、バイアス、著作権に関して問題があり、オブジェクトが正確にどのように現れるかはほとんど制御できない。
本研究では,フォトリアリスティックな合成データの利用を民主化する手法を提案する。我々は,制御可能性と現実性の両方を提供する表現学習研究のための新しい世代の対話環境を開発する。
私たちはエンタテインメント業界でよく知られた強力なゲームエンジンであるunreal engineを使用して、表現学習のためにpug(photorealistic unreal graphics)環境とデータセットを作成しています。
本稿では,より厳密な視覚モデル評価を可能にするPUGの可能性を示す。
関連論文リスト
- Closing the Visual Sim-to-Real Gap with Object-Composable NeRFs [59.12526668734703]
本稿では,オブジェクト合成可能なNeRFモデルであるComposable Object Volume NeRF(COV-NeRF)を紹介する。
COV-NeRFは、実際の画像からオブジェクトを抽出し、それらを新しいシーンに合成し、フォトリアリスティックなレンダリングと多くのタイプの2Dおよび3D監視を生成する。
論文 参考訳(メタデータ) (2024-03-07T00:00:02Z) - Improving the Effectiveness of Deep Generative Data [5.856292656853396]
下流の画像処理タスクのための純粋合成画像のモデルを訓練すると、実際のデータに対するトレーニングに比べ、望ましくない性能低下が生じる。
本稿では,この現象に寄与する要因を記述した新しい分類法を提案し,CIFAR-10データセットを用いて検討する。
本手法は,合成データと合成データの混合による学習と合成データのみの学習において,下流分類タスクのベースラインに優れる。
論文 参考訳(メタデータ) (2023-11-07T12:57:58Z) - ParGANDA: Making Synthetic Pedestrians A Reality For Object Detection [2.7648976108201815]
本稿では,GAN(Generative Adversarial Network)を用いて,実データと合成データのギャップを埋めることを提案する。
我々のアプローチは、視覚的に可視なサンプルを生成するだけでなく、実際のドメインのラベルも必要としない。
論文 参考訳(メタデータ) (2023-07-21T05:26:32Z) - Learning from synthetic data generated with GRADE [0.6982738885923204]
本稿では,ロボット工学研究のための現実的なアニメーション動的環境(GRADE)を作成するためのフレームワークを提案する。
GRADEは、完全なシミュレーション制御、ROS統合、現実物理学をサポートし、高い視覚的忠実度画像と地上真実データを生成するエンジン内にある。
合成データのみを用いてトレーニングしても、同一のアプリケーション領域における実世界の画像によく当てはまることを示す。
論文 参考訳(メタデータ) (2023-05-07T14:13:04Z) - Synthetic Data for Object Classification in Industrial Applications [53.180678723280145]
オブジェクト分類では、オブジェクトごとに、異なる条件下で、多数の画像を取得することは必ずしも不可能である。
本研究は,学習データセット内の限られたデータに対処するゲームエンジンを用いた人工画像の作成について検討する。
論文 参考訳(メタデータ) (2022-12-09T11:43:04Z) - Is synthetic data from generative models ready for image recognition? [69.42645602062024]
本研究では,最新のテキスト・画像生成モデルから生成した合成画像が,画像認識タスクにどのように利用できるかを検討した。
本稿では,既存の生成モデルからの合成データの強大さと欠点を示し,認識タスクに合成データを適用するための戦略を提案する。
論文 参考訳(メタデータ) (2022-10-14T06:54:24Z) - ImaginaryNet: Learning Object Detectors without Real Images and
Annotations [66.30908705345973]
本稿では,事前学習された言語モデルとテキスト・ツー・イメージモデルを組み合わせた画像合成フレームワークを提案する。
合成画像とクラスラベルを使用することで、弱い教師付きオブジェクト検出を利用してImaginary-Supervised Object Detectionを実現できる。
実験により、ImaginaryNetは、実際のデータに基づいてトレーニングされた同じバックボーンの弱い監督を受けたものと比較して、ISODで約70%の性能が得られることが示された。
論文 参考訳(メタデータ) (2022-10-13T10:25:22Z) - PennSyn2Real: Training Object Recognition Models without Human Labeling [12.923677573437699]
我々はPennSyn2Realを提案する。20種類以上のマイクロエアロビー(MAV)の10万以上の4K画像からなる合成データセットである。
このデータセットは、MAV検出や分類などのハイレベルコンピュータビジョンタスクのための任意の数のトレーニングイメージを生成するために使用することができる。
このフレームワークを用いて生成された合成データは,検出やセグメンテーションといった一般的なオブジェクト認識タスクに対して,CNNモデルをトレーニングするために直接利用できることを示す。
論文 参考訳(メタデータ) (2020-09-22T02:53:40Z) - OpenRooms: An End-to-End Open Framework for Photorealistic Indoor Scene
Datasets [103.54691385842314]
本研究では,屋内シーンの大規模フォトリアリスティックデータセットを作成するための新しいフレームワークを提案する。
私たちの目標は、データセット作成プロセスを広く利用できるようにすることです。
これにより、逆レンダリング、シーン理解、ロボット工学における重要な応用が可能になる。
論文 参考訳(メタデータ) (2020-07-25T06:48:47Z) - Intrinsic Autoencoders for Joint Neural Rendering and Intrinsic Image
Decomposition [67.9464567157846]
合成3Dモデルからリアルな画像を生成するためのオートエンコーダを提案し,同時に実像を本質的な形状と外観特性に分解する。
実験により, レンダリングと分解の併用処理が有益であることが確認され, 画像から画像への翻訳の質的, 定量的なベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-06-29T12:53:58Z) - CONFIG: Controllable Neural Face Image Generation [10.443563719622645]
ConfigNetは、出力画像の個々の側面を意味のある方法で制御できる、ニューラルフェイスモデルである。
提案手法では,合成データを用いて遅延空間を従来のレンダリングパイプラインの入力に対応する要素に分解する。
論文 参考訳(メタデータ) (2020-05-06T09:19:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。