論文の概要: PREGAN: Pose Randomization and Estimation for Weakly Paired Image Style
Translation
- arxiv url: http://arxiv.org/abs/2011.00301v2
- Date: Sun, 17 Jan 2021 07:18:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-01 05:14:51.728298
- Title: PREGAN: Pose Randomization and Estimation for Weakly Paired Image Style
Translation
- Title(参考訳): PreGAN:弱いペア画像スタイルの翻訳のランダム化と推定
- Authors: Zexi Chen, Jiaxin Guo, Xuecheng Xu, Yunkai Wang, Yue Wang, Rong Xiong
- Abstract要約: 本稿では2つの画像のコンテンツがポーズの誤りと一致しているスタイル翻訳のための弱いペアリング設定を提案する。
PreGANは、シミュレーションデータと実世界の収集データの両方で検証され、有効性を示す。
- 参考スコア(独自算出の注目度): 11.623477199795037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Utilizing the trained model under different conditions without data
annotation is attractive for robot applications. Towards this goal, one class
of methods is to translate the image style from another environment to the one
on which models are trained. In this paper, we propose a weakly-paired setting
for the style translation, where the content in the two images is aligned with
errors in poses. These images could be acquired by different sensors in
different conditions that share an overlapping region, e.g. with LiDAR or
stereo cameras, from sunny days or foggy nights. We consider this setting to be
more practical with: (i) easier labeling than the paired data; (ii) better
interpretability and detail retrieval than the unpaired data. To translate
across such images, we propose PREGAN to train a style translator by
intentionally transforming the two images with a random pose, and to estimate
the given random pose by differentiable non-trainable pose estimator given that
the more aligned in style, the better the estimated result is. Such adversarial
training enforces the network to learn the style translation, avoiding being
entangled with other variations. Finally, PREGAN is validated on both simulated
and real-world collected data to show the effectiveness. Results on down-stream
tasks, classification, road segmentation, object detection, and feature
matching show its potential for real applications.
https://github.com/wrld/PRoGAN
- Abstract(参考訳): データアノテーションのない異なる条件下でのトレーニングモデルの利用は、ロボットアプリケーションにとって魅力的である。
この目標に向けて、ある種類のメソッドは、イメージスタイルを別の環境からモデルが訓練された環境へ変換する。
本稿では,2つの画像のコンテンツがポーズの誤りと一致しているスタイル翻訳のための弱いペアリング設定を提案する。
これらの画像は、晴れた日や霧の夜からLiDARやステレオカメラと重なる領域を共有する異なる条件下で異なるセンサーによって取得することができる。
この設定はもっと実用的だと思います
(i) ペアデータよりもラベル付けが容易である。
(ii)未処理のデータよりも解釈性と詳細検索が優れている。
そこで本研究では,この2つの画像を無作為なポーズで故意に変換して,スタイルトランスレータを訓練するプレガンを提案し,スタイルが整うほど推定結果が良くなることを考慮し,無作為なポーズ推定器を用いて任意のポーズを推定する。
このような敵対的な訓練は、他のバリエーションと絡まらずに、スタイル翻訳を学ぶネットワークを強制する。
最後に、PreGANをシミュレーションデータと実世界のデータの両方で検証し、有効性を示す。
下流タスク、分類、道路分割、オブジェクト検出、特徴マッチングの結果は、実際のアプリケーションの可能性を示している。
https://github.com/wrld/PRoGAN
関連論文リスト
- Lost in Translation: Modern Neural Networks Still Struggle With Small Realistic Image Transformations [8.248839892711478]
画像分類における顕著な性能を達成するディープニューラルネットワークは、小さな変換によって容易に騙される。
これらのアプローチは、カメラオリエンテーションの微妙な変化をシミュレートする「自然な」画像翻訳を頑健に扱う上で、依然として不十分であることを示す。
我々は、クロップ選択によるロバスト推論(Robust Inference)を、任意の所望の一貫性のレベルを達成することが証明できる単純な方法として提示する。
論文 参考訳(メタデータ) (2024-04-10T16:39:50Z) - DEADiff: An Efficient Stylization Diffusion Model with Disentangled
Representations [64.43387739794531]
現在のエンコーダベースのアプローチは、スタイルの転送中にテキスト・ツー・イメージモデルのテキスト制御性を著しく損なう。
この問題に対処するために、以下の2つの戦略を用いてDEADiffを紹介します。
DeAiffは、テキスト・ツー・イメージモデルに固有のテキスト制御性と、参照画像とスタイルの類似性との間の最適な視覚的スタイリング結果と最適なバランスを得る。
論文 参考訳(メタデータ) (2024-03-11T17:35:23Z) - SCONE-GAN: Semantic Contrastive learning-based Generative Adversarial
Network for an end-to-end image translation [18.93434486338439]
SCONE-GANはリアルで多様な風景画像を生成する学習に有効であることが示されている。
より現実的で多様な画像生成のために、スタイル参照画像を導入します。
画像から画像への変換と屋外画像のスタイリングのための提案アルゴリズムを検証した。
論文 参考訳(メタデータ) (2023-11-07T10:29:16Z) - Image-to-Image Translation for Autonomous Driving from Coarsely-Aligned
Image Pairs [57.33431586417377]
自動運転車は悪天候に対処して安全に運転できなければならない。
本稿では,センサ入力を悪条件で捕捉した入力を良質な入力に変換するという考え方について検討する。
我々は、粗い整列学習方式により、画像翻訳の質が向上し、下流タスクが改善されていることを示す。
論文 参考訳(メタデータ) (2022-09-23T16:03:18Z) - Unpaired Image-to-Image Translation via Latent Energy Transport [61.62293304236371]
画像から画像への変換は、2つの視覚領域間の識別的ターゲットスタイルに変換しながら、ソースの内容を保存することを目的としている。
本稿では,この課題に対して,事前訓練されたオートエンコーダの潜在空間にエネルギーベースモデル(EBM)を配置することを提案する。
我々のモデルは1024$times$1024- resolution unpaired image translationに適用できる最初のモデルである。
論文 参考訳(メタデータ) (2020-12-01T17:18:58Z) - An Empirical Study of the Collapsing Problem in Semi-Supervised 2D Human
Pose Estimation [80.02124918255059]
半教師付き学習は、ラベルなし画像の探索によってモデルの精度を高めることを目的としている。
私たちは相互に教え合うために2つのネットワークを学びます。
各ネットワーク内の容易なイメージに関するより信頼性の高い予測は、他のネットワークに対応するハードイメージについて学ぶように教えるために使用される。
論文 参考訳(メタデータ) (2020-11-25T03:29:52Z) - Unsupervised Image-to-Image Translation via Pre-trained StyleGAN2
Network [73.5062435623908]
本稿では,一連のモデル変換によって対象領域に新たなモデルを生成する新しいI2I翻訳手法を提案する。
潜在ベクトルを生成されたモデルに入力することで、ソースドメインとターゲットドメインの間でI2I翻訳を行うことができる。
論文 参考訳(メタデータ) (2020-10-12T13:51:40Z) - Contrastive Learning for Unpaired Image-to-Image Translation [64.47477071705866]
画像から画像への変換では、出力の各パッチは、入力中の対応するパッチの内容を、ドメインに依存しない形で反映すべきである。
本研究では,両者の相互情報を最大化するために,コントラスト学習に基づく枠組みを提案する。
筆者らのフレームワークは、画質の向上とトレーニング時間の短縮を図りながら、画像から画像への翻訳設定の一方的な翻訳を可能にすることを実証している。
論文 参考訳(メタデータ) (2020-07-30T17:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。