論文の概要: PUG: Photorealistic and Semantically Controllable Synthetic Data for
Representation Learning
- arxiv url: http://arxiv.org/abs/2308.03977v1
- Date: Tue, 8 Aug 2023 01:33:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 14:36:13.697953
- Title: PUG: Photorealistic and Semantically Controllable Synthetic Data for
Representation Learning
- Title(参考訳): PUG:表現学習のためのフォトリアリスティックでセマンティックに制御可能な合成データ
- Authors: Florian Bordes, Shashank Shekhar, Mark Ibrahim, Diane Bouchacourt,
Pascal Vincent, Ari S. Morcos
- Abstract要約: 制御性とリアリズムを両立する表現学習研究のための対話型環境を新たに提案する。
エンターテイメント業界で有名な強力なゲームエンジンであるUnreal Engineを使用して、表現学習のためのPUG環境とデータセットを生成します。
- 参考スコア(独自算出の注目度): 28.86087226393081
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthetic image datasets offer unmatched advantages for designing and
evaluating deep neural networks: they make it possible to (i) render as many
data samples as needed, (ii) precisely control each scene and yield granular
ground truth labels (and captions), (iii) precisely control distribution shifts
between training and testing to isolate variables of interest for sound
experimentation. Despite such promise, the use of synthetic image data is still
limited -- and often played down -- mainly due to their lack of realism. Most
works therefore rely on datasets of real images, which have often been scraped
from public images on the internet, and may have issues with regards to
privacy, bias, and copyright, while offering little control over how objects
precisely appear. In this work, we present a path to democratize the use of
photorealistic synthetic data: we develop a new generation of interactive
environments for representation learning research, that offer both
controllability and realism. We use the Unreal Engine, a powerful game engine
well known in the entertainment industry, to produce PUG (Photorealistic Unreal
Graphics) environments and datasets for representation learning. In this paper,
we demonstrate the potential of PUG to enable more rigorous evaluations of
vision models.
- Abstract(参考訳): 合成画像データセットは、ディープニューラルネットワークの設計と評価に不整合な利点を提供する。
i) 必要なだけ多くのデータサンプルをレンダリングする。
(ii)各場面を精密に制御し、細かな地上真理ラベル(及びキャプション)を付与する。
(iii)音実験の興味のある変数を分離するために、トレーニングとテストの間における分布の正確な制御を行う。
このような約束にもかかわらず、合成画像データの使用は、主に現実主義が欠如しているため、依然として制限されている。
それゆえ、ほとんどの作品は実際の画像のデータセットに依存しており、それはインターネット上の公開画像からしばしば取り除かれており、プライバシー、バイアス、著作権に関して問題があり、オブジェクトが正確にどのように現れるかはほとんど制御できない。
本研究では,フォトリアリスティックな合成データの利用を民主化する手法を提案する。我々は,制御可能性と現実性の両方を提供する表現学習研究のための新しい世代の対話環境を開発する。
私たちはエンタテインメント業界でよく知られた強力なゲームエンジンであるunreal engineを使用して、表現学習のためにpug(photorealistic unreal graphics)環境とデータセットを作成しています。
本稿では,より厳密な視覚モデル評価を可能にするPUGの可能性を示す。
関連論文リスト
- FashionR2R: Texture-preserving Rendered-to-Real Image Translation with Diffusion Models [14.596090302381647]
本稿では,レンダリングの制御に基づく拡散モデルから生成するパワーを利用して,レンダリング画像のフォトリアリズム向上について検討する。
ドメイン知識注入(Domain Knowledge Injection, DKI)と現実画像生成(Realistic Image Generation, RIG)という2つの段階から構成される。
論文 参考訳(メタデータ) (2024-10-18T12:48:22Z) - Generating Synthetic Satellite Imagery With Deep-Learning Text-to-Image Models -- Technical Challenges and Implications for Monitoring and Verification [46.42328086160106]
コンディショニング機構を用いて合成衛星画像の作成方法について検討する。
評価結果は,信頼性と最先端の指標に基づいて評価する。
本稿では,衛星画像の監視と検証の文脈における意義について論じる。
論文 参考訳(メタデータ) (2024-04-11T14:00:20Z) - Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - Closing the Visual Sim-to-Real Gap with Object-Composable NeRFs [59.12526668734703]
本稿では,オブジェクト合成可能なNeRFモデルであるComposable Object Volume NeRF(COV-NeRF)を紹介する。
COV-NeRFは、実際の画像からオブジェクトを抽出し、それらを新しいシーンに合成し、フォトリアリスティックなレンダリングと多くのタイプの2Dおよび3D監視を生成する。
論文 参考訳(メタデータ) (2024-03-07T00:00:02Z) - Improving the Effectiveness of Deep Generative Data [5.856292656853396]
下流の画像処理タスクのための純粋合成画像のモデルを訓練すると、実際のデータに対するトレーニングに比べ、望ましくない性能低下が生じる。
本稿では,この現象に寄与する要因を記述した新しい分類法を提案し,CIFAR-10データセットを用いて検討する。
本手法は,合成データと合成データの混合による学習と合成データのみの学習において,下流分類タスクのベースラインに優れる。
論文 参考訳(メタデータ) (2023-11-07T12:57:58Z) - Learning from synthetic data generated with GRADE [0.6982738885923204]
本稿では,ロボット工学研究のための現実的なアニメーション動的環境(GRADE)を作成するためのフレームワークを提案する。
GRADEは、完全なシミュレーション制御、ROS統合、現実物理学をサポートし、高い視覚的忠実度画像と地上真実データを生成するエンジン内にある。
合成データのみを用いてトレーニングしても、同一のアプリケーション領域における実世界の画像によく当てはまることを示す。
論文 参考訳(メタデータ) (2023-05-07T14:13:04Z) - Synthetic Data for Object Classification in Industrial Applications [53.180678723280145]
オブジェクト分類では、オブジェクトごとに、異なる条件下で、多数の画像を取得することは必ずしも不可能である。
本研究は,学習データセット内の限られたデータに対処するゲームエンジンを用いた人工画像の作成について検討する。
論文 参考訳(メタデータ) (2022-12-09T11:43:04Z) - ImaginaryNet: Learning Object Detectors without Real Images and
Annotations [66.30908705345973]
本稿では,事前学習された言語モデルとテキスト・ツー・イメージモデルを組み合わせた画像合成フレームワークを提案する。
合成画像とクラスラベルを使用することで、弱い教師付きオブジェクト検出を利用してImaginary-Supervised Object Detectionを実現できる。
実験により、ImaginaryNetは、実際のデータに基づいてトレーニングされた同じバックボーンの弱い監督を受けたものと比較して、ISODで約70%の性能が得られることが示された。
論文 参考訳(メタデータ) (2022-10-13T10:25:22Z) - PennSyn2Real: Training Object Recognition Models without Human Labeling [12.923677573437699]
我々はPennSyn2Realを提案する。20種類以上のマイクロエアロビー(MAV)の10万以上の4K画像からなる合成データセットである。
このデータセットは、MAV検出や分類などのハイレベルコンピュータビジョンタスクのための任意の数のトレーニングイメージを生成するために使用することができる。
このフレームワークを用いて生成された合成データは,検出やセグメンテーションといった一般的なオブジェクト認識タスクに対して,CNNモデルをトレーニングするために直接利用できることを示す。
論文 参考訳(メタデータ) (2020-09-22T02:53:40Z) - OpenRooms: An End-to-End Open Framework for Photorealistic Indoor Scene
Datasets [103.54691385842314]
本研究では,屋内シーンの大規模フォトリアリスティックデータセットを作成するための新しいフレームワークを提案する。
私たちの目標は、データセット作成プロセスを広く利用できるようにすることです。
これにより、逆レンダリング、シーン理解、ロボット工学における重要な応用が可能になる。
論文 参考訳(メタデータ) (2020-07-25T06:48:47Z) - Intrinsic Autoencoders for Joint Neural Rendering and Intrinsic Image
Decomposition [67.9464567157846]
合成3Dモデルからリアルな画像を生成するためのオートエンコーダを提案し,同時に実像を本質的な形状と外観特性に分解する。
実験により, レンダリングと分解の併用処理が有益であることが確認され, 画像から画像への翻訳の質的, 定量的なベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-06-29T12:53:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。