論文の概要: Autoencoder for Synthetic to Real Generalization: From Simple to More
Complex Scenes
- arxiv url: http://arxiv.org/abs/2204.00386v1
- Date: Fri, 1 Apr 2022 12:23:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-04 13:52:39.348863
- Title: Autoencoder for Synthetic to Real Generalization: From Simple to More
Complex Scenes
- Title(参考訳): 合成から実一般化のためのオートエンコーダ:単純からより複雑なシーンへ
- Authors: Steve Dias Da Cruz, Bertram Taetz, Thomas Stifter, Didier Stricker
- Abstract要約: 我々は,自己エンコーダアーキテクチャに注目し,シミュレーション画像と実画像の領域シフトに起因する帰納的バイアスに不変な潜在空間表現の学習を目指す。
本稿では,視覚的複雑性が増大する実際のデータセットに対して,一般化可能性を高め,セマンティクスの保存を改善するためのアプローチを提案する。
- 参考スコア(独自算出の注目度): 13.618797548020462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning on synthetic data and transferring the resulting properties to their
real counterparts is an important challenge for reducing costs and increasing
safety in machine learning. In this work, we focus on autoencoder architectures
and aim at learning latent space representations that are invariant to
inductive biases caused by the domain shift between simulated and real images
showing the same scenario. We train on synthetic images only, present
approaches to increase generalizability and improve the preservation of the
semantics to real datasets of increasing visual complexity. We show that
pre-trained feature extractors (e.g. VGG) can be sufficient for generalization
on images of lower complexity, but additional improvements are required for
visually more complex scenes. To this end, we demonstrate a new sampling
technique, which matches semantically important parts of the image, while
randomizing the other parts, leads to salient feature extraction and a
neglection of unimportant parts. This helps the generalization to real data and
we further show that our approach outperforms fine-tuned classification models.
- Abstract(参考訳): 合成データの学習と結果のプロパティを実際のデータに転送することは、コスト削減と機械学習の安全性向上に重要な課題である。
本研究では、オートエンコーダアーキテクチャに着目し、同じシナリオを示すシミュレーション画像と実画像間の領域シフトに起因する帰納的バイアスに不変な潜在空間表現を学習することを目的とする。
合成画像のみを訓練し,汎用性の向上と,視覚複雑性の増大による実データセットへのセマンティクスの保存性の向上を図る。
予め訓練された特徴抽出器(例えば、vgg)は、より複雑な画像の一般化には十分であるが、視覚的により複雑なシーンではさらなる改善が必要となる。
この目的のために,画像の意味的に重要な部分をランダム化しながら,他の部分をランダム化しながら,顕著な特徴抽出と重要でない部分を無視する新しいサンプリング手法を提案する。
これは実データへの一般化に役立ち、我々のアプローチが微調整された分類モデルを上回ることをさらに示します。
関連論文リスト
- Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - Leveraging Representations from Intermediate Encoder-blocks for Synthetic Image Detection [13.840950434728533]
SID(State-of-the-art Synthetic Image Detection)研究は、基礎モデルからの特徴抽出の利点を強く証明している。
軽量ネットワークを介してCLIPの画像エンコーダの中間トランスフォーマーブロックから抽出した画像表現を利用する。
本手法は,20個のテストデータセットで評価し,平均+10.6%の絶対性能向上を示すことにより,最先端の手法と比較した。
論文 参考訳(メタデータ) (2024-02-29T12:18:43Z) - RestoreFormer++: Towards Real-World Blind Face Restoration from
Undegraded Key-Value Pairs [63.991802204929485]
ブラインド顔復元は、未知の劣化のあるものから高品質な顔画像の復元を目的としている。
現在のアルゴリズムは、主に、高品質な詳細を補完し、驚くべき進歩を達成するために、事前を導入する。
RestoreFormer++を提案する。これは、コンテキスト情報と事前との相互作用をモデル化するための、完全な空間的アテンション機構を導入します。
RestoreFormer++は、合成と実世界の両方のデータセットで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-08-14T16:04:53Z) - A Shared Representation for Photorealistic Driving Simulators [83.5985178314263]
本稿では、識別器アーキテクチャを再考することにより、生成画像の品質を向上させることを提案する。
シーンセグメンテーションマップや人体ポーズといったセマンティックインプットによって画像が生成されるという問題に焦点が当てられている。
我々は,意味的セグメンテーション,コンテンツ再構成,および粗い粒度の逆解析を行うのに十分な情報をエンコードする,共有潜在表現を学習することを目指している。
論文 参考訳(メタデータ) (2021-12-09T18:59:21Z) - A Scaling Law for Synthetic-to-Real Transfer: A Measure of Pre-Training [52.93808218720784]
合成から現実への変換学習は,実タスクのための合成画像と接地真実アノテーションを用いた事前学習を行うフレームワークである。
合成画像はデータの不足を克服するが、事前訓練されたモデルで微調整性能がどのようにスケールするかは定かではない。
我々は、合成事前学習データの様々なタスク、モデル、複雑さにおける学習曲線を一貫して記述する、単純で一般的なスケーリング法則を観察する。
論文 参考訳(メタデータ) (2021-08-25T02:29:28Z) - Real-ESRGAN: Training Real-World Blind Super-Resolution with Pure
Synthetic Data [17.529045507657944]
我々は、強力なESRGANを実用的修復アプリケーション(Real-ESRGAN)に拡張する。
複雑な実世界の劣化をシミュレートするために、高次劣化モデリングプロセスを導入する。
また、合成プロセスにおける共通リングやオーバーシュートアーティファクトについても検討する。
論文 参考訳(メタデータ) (2021-07-22T17:43:24Z) - On the Transfer of Disentangled Representations in Realistic Settings [44.367245337475445]
1Mのシミュレーション画像と1,800以上の注釈付き実世界の画像を備えた新しい高解像度データセットを導入する。
本研究では,非交叉表現学習を現実的な高解像度設定に拡張するために,新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-10-27T16:15:24Z) - Synthetic Convolutional Features for Improved Semantic Segmentation [139.5772851285601]
本稿では、中間畳み込み特徴を生成することを提案し、そのような中間畳み込み特徴に対応する最初の合成手法を提案する。
これにより、ラベルマスクから新機能を生成し、トレーニング手順にうまく組み込むことができます。
Cityscapes と ADE20K の2つの挑戦的なデータセットに関する実験結果と分析により,生成した特徴がセグメンテーションタスクのパフォーマンスを向上させることが示された。
論文 参考訳(メタデータ) (2020-09-18T14:12:50Z) - Automated Synthetic-to-Real Generalization [142.41531132965585]
本稿では,レイヤワイズ学習率の選択を自動化するためのテキスト学習最適化(L2O)戦略を提案する。
提案手法は,実データを見たり,トレーニングしたりすることなく,合成から現実への一般化性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2020-07-14T10:57:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。