論文の概要: Procedural Image Programs for Representation Learning
- arxiv url: http://arxiv.org/abs/2211.16412v2
- Date: Tue, 7 Nov 2023 02:37:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 20:11:36.406822
- Title: Procedural Image Programs for Representation Learning
- Title(参考訳): 表現学習のための手続き型画像プログラム
- Authors: Manel Baradad, Chun-Fu Chen, Jonas Wulff, Tongzhou Wang, Rogerio
Feris, Antonio Torralba, Phillip Isola
- Abstract要約: 我々は,2万プログラムからなる大規模なデータセットを用いて,多様な合成画像を生成する訓練を提案する。
これらのプログラムは短いコードスニペットであり、変更が容易で、高速に実行することができる。
提案したデータセットは、教師付きおよび教師なしの表現学習の両方に使用することができ、実際の画像と手続き的に生成された画像との事前学習のギャップを38%削減する。
- 参考スコア(独自算出の注目度): 62.557911005179946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning image representations using synthetic data allows training neural
networks without some of the concerns associated with real images, such as
privacy and bias. Existing work focuses on a handful of curated generative
processes which require expert knowledge to design, making it hard to scale up.
To overcome this, we propose training with a large dataset of twenty-one
thousand programs, each one generating a diverse set of synthetic images. These
programs are short code snippets, which are easy to modify and fast to execute
using OpenGL. The proposed dataset can be used for both supervised and
unsupervised representation learning, and reduces the gap between pre-training
with real and procedurally generated images by 38%.
- Abstract(参考訳): 合成データを使って画像表現を学習することで、プライバシやバイアスなど、実際のイメージに関係のないニューラルネットワークのトレーニングが可能になる。
既存の作業は、設計に専門家の知識を必要とする、少数のキュレートされた生成プロセスに焦点を当てています。
そこで本研究では,21万のプログラムからなる大規模データセットを用いて,多様な合成画像を生成するトレーニングを提案する。
これらのプログラムは短いコードスニペットで、修正が容易で、openglを使って高速に実行できます。
提案するデータセットは教師なし表現学習と教師なし表現学習の両方に使用可能であり、実画像と手続き的生成画像との事前学習のギャップを38%削減できる。
関連論文リスト
- Efficient-3DiM: Learning a Generalizable Single-image Novel-view
Synthesizer in One Day [63.96075838322437]
シングルイメージのノベルビューシンセサイザーを学習するためのフレームワークを提案する。
当社のフレームワークは,トレーニング時間を10日以内から1日未満に短縮することが可能です。
論文 参考訳(メタデータ) (2023-10-04T17:57:07Z) - Image Captions are Natural Prompts for Text-to-Image Models [70.30915140413383]
本研究では,合成データの学習効果とプロンプトによる合成データ分布の関係を解析した。
本稿では,テキストから画像への生成モデルにより,より情報的で多様な学習データを合成する簡易かつ効果的な手法を提案する。
本手法は,合成学習データに基づいて訓練したモデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-07-17T14:38:11Z) - Synthetic-to-Real Domain Adaptation using Contrastive Unpaired
Translation [28.19031441659854]
手動のアノテーションを使わずにトレーニングデータを取得するための多段階手法を提案する。
3Dオブジェクトメッシュから,現代的な合成パイプラインを用いて画像を生成する。
合成画像の実際の領域への適応に最先端のイメージ・ツー・イメージ変換法を用いる。
論文 参考訳(メタデータ) (2022-03-17T17:13:23Z) - AugNet: End-to-End Unsupervised Visual Representation Learning with
Image Augmentation [3.6790362352712873]
我々は、未ラベル画像の集合から画像特徴を学習するための新しいディープラーニングトレーニングパラダイムであるAugNetを提案する。
実験により,低次元空間における画像の表現が可能であることを実証した。
多くのディープラーニングベースの画像検索アルゴリズムとは異なり、我々のアプローチは外部アノテーション付きデータセットへのアクセスを必要としない。
論文 参考訳(メタデータ) (2021-06-11T09:02:30Z) - Image Compositing for Segmentation of Surgical Tools without Manual
Annotations [10.05087029666444]
特殊効果による手法を活用し、現実的なトレーニングデータセットの作成を自動化することを提案する。
クロマキーの上にサンプル手術器具を置くことにより、前景データをキャプチャする。
背景データは、楽器を含まないビデオの収集によって取得される。
半合成データのみを用いてバニラU-Netをトレーニングし、簡単な後処理を適用することで、公開可能な実データセットでトレーニングされた同じネットワークの結果と一致できることを示す。
論文 参考訳(メタデータ) (2021-02-18T18:14:43Z) - PennSyn2Real: Training Object Recognition Models without Human Labeling [12.923677573437699]
我々はPennSyn2Realを提案する。20種類以上のマイクロエアロビー(MAV)の10万以上の4K画像からなる合成データセットである。
このデータセットは、MAV検出や分類などのハイレベルコンピュータビジョンタスクのための任意の数のトレーニングイメージを生成するために使用することができる。
このフレームワークを用いて生成された合成データは,検出やセグメンテーションといった一般的なオブジェクト認識タスクに対して,CNNモデルをトレーニングするために直接利用できることを示す。
論文 参考訳(メタデータ) (2020-09-22T02:53:40Z) - Intrinsic Autoencoders for Joint Neural Rendering and Intrinsic Image
Decomposition [67.9464567157846]
合成3Dモデルからリアルな画像を生成するためのオートエンコーダを提案し,同時に実像を本質的な形状と外観特性に分解する。
実験により, レンダリングと分解の併用処理が有益であることが確認され, 画像から画像への翻訳の質的, 定量的なベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-06-29T12:53:58Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z) - Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。
ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。
合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文 参考訳(メタデータ) (2020-04-01T12:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。