論文の概要: SAC-GAN: Structure-Aware Image-to-Image Composition for Self-Driving
- arxiv url: http://arxiv.org/abs/2112.06596v1
- Date: Mon, 13 Dec 2021 12:24:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-14 23:02:00.404678
- Title: SAC-GAN: Structure-Aware Image-to-Image Composition for Self-Driving
- Title(参考訳): SAC-GAN: 自動運転のための構造認識画像合成
- Authors: Hang Zhou, Ali Mahdavi-Amiri, Rui Ma, Hao Zhang
- Abstract要約: 自動運転車のための画像拡張のための構成的アプローチを提案する。
オブジェクトイメージから収穫パッチとして表現されたオブジェクトを、バックグラウンドシーンイメージにシームレスに構成するように訓練された、エンドツーエンドのニューラルネットワークである。
合成画像の品質, 構成性, 一般化性の観点から, 我々のネットワーク, SAC-GAN による構造認識合成の評価を行った。
- 参考スコア(独自算出の注目度): 18.842432515507035
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a compositional approach to image augmentation for self-driving
applications. It is an end-to-end neural network that is trained to seamlessly
compose an object (e.g., a vehicle or pedestrian) represented as a cropped
patch from an object image, into a background scene image. As our approach
emphasizes more on semantic and structural coherence of the composed images,
rather than their pixel-level RGB accuracies, we tailor the input and output of
our network with structure-aware features and design our network losses
accordingly. Specifically, our network takes the semantic layout features from
the input scene image, features encoded from the edges and silhouette in the
input object patch, as well as a latent code as inputs, and generates a 2D
spatial affine transform defining the translation and scaling of the object
patch. The learned parameters are further fed into a differentiable spatial
transformer network to transform the object patch into the target image, where
our model is trained adversarially using an affine transform discriminator and
a layout discriminator. We evaluate our network, coined SAC-GAN for
structure-aware composition, on prominent self-driving datasets in terms of
quality, composability, and generalizability of the composite images.
Comparisons are made to state-of-the-art alternatives, confirming superiority
of our method.
- Abstract(参考訳): 自動運転車のための画像拡張のための構成的アプローチを提案する。
オブジェクトイメージから収穫されたパッチとして表現されたオブジェクト(例えば、車両や歩行者)をバックグラウンドシーンイメージにシームレスに構成する、エンドツーエンドのニューラルネットワークである。
提案手法は,画素レベルのRGBアキュラシーではなく,合成画像のセマンティクスと構造的コヒーレンスに重点を置いているため,ネットワークのインプットとアウトプットを構造認識機能で調整し,それに応じてネットワークの損失を設計する。
具体的には、入力シーン画像から意味的レイアウトの特徴を取り、入力対象パッチのエッジとシルエットからエンコードされた特徴と、入力として潜時コードを取り、オブジェクトパッチの翻訳とスケーリングを定義する2次元空間アフィン変換を生成する。
学習したパラメータは、さらに微分可能な空間変換器ネットワークに入力され、対象画像にオブジェクトパッチを変換し、アフィン変換判別器とレイアウト判別器を用いて逆向きにトレーニングする。
合成画像の品質, 構成性, 一般化性の観点から, 我々のネットワーク, SAC-GAN による構造認識合成の評価を行った。
最先端の代替品との比較を行い,本手法の優位性を確認した。
関連論文リスト
- SyntStereo2Real: Edge-Aware GAN for Remote Sensing Image-to-Image Translation while Maintaining Stereo Constraint [1.8749305679160366]
現在の手法では、2つのネットワーク、未ペア画像間翻訳ネットワークとステレオマッチングネットワークを組み合わせている。
両タスクを同時に処理するエッジ対応のGANネットワークを提案する。
我々は,既存のモデルよりも定性的かつ定量的に優れた結果が得られ,その適用性は多様な領域にまで及んでいることを実証した。
論文 参考訳(メタデータ) (2024-04-14T14:58:52Z) - Disentangling Structure and Appearance in ViT Feature Space [26.233355454282446]
本稿では,ある自然画像の視覚的外観を別の自然画像に意味的に伝達する手法を提案する。
具体的には、ソース構造画像中のオブジェクトを、ターゲットの外観画像中のそれらの意味的関連オブジェクトの視覚的外観で“ペイント”する画像を生成する。
本研究では,特定の領域から画像のデータセットに基づいて学習したフィードフォワードリアルタイムな外見伝達モデルであるSpliceNetと,一対の構造化画像に対してジェネレータをトレーニングすることで機能するセマンティックな外見伝達の2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-20T21:20:15Z) - Cross-Image Attention for Zero-Shot Appearance Transfer [68.43651329067393]
画像間の意味的対応を暗黙的に確立するクロスイメージアテンション機構を導入する。
ノイズの多い潜在コードを操作する3つのメカニズムと、デノナイジングプロセスを通してモデルの内部表現を利用する。
実験により,本手法は多種多様な対象カテゴリに対して有効であり,形状,大きさ,視点の変動に頑健であることが示された。
論文 参考訳(メタデータ) (2023-11-06T18:33:24Z) - Spectral Normalization and Dual Contrastive Regularization for
Image-to-Image Translation [9.029227024451506]
二重コントラスト正規化とスペクトル正規化に基づく新しい未ペアI2I翻訳フレームワークを提案する。
SN-DCRの有効性を評価するための総合的な実験を行い、本手法が複数のタスクにおいてSOTAを実現することを実証した。
論文 参考訳(メタデータ) (2023-04-22T05:22:24Z) - Neural Congealing: Aligning Images to a Joint Semantic Atlas [14.348512536556413]
画像の集合を横断的に意味的に共通するコンテンツを調整するための,ゼロショットの自己教師型フレームワークを提案する。
提案手法は,DINO-ViTの事前学習能力を利用して学習する。
提案手法は,大規模データセットに対する広範囲なトレーニングを必要とする最先端の手法と比較して,好適に動作することを示す。
論文 参考訳(メタデータ) (2023-02-08T09:26:22Z) - Modeling Image Composition for Complex Scene Generation [77.10533862854706]
本稿では,レイアウト・ツー・イメージ生成タスクにおける最先端結果を実現する手法を提案する。
本稿では,RGB画像をパッチトークンに圧縮した後,オブジェクト・トゥ・オブジェクト,オブジェクト・トゥ・パッチ,パッチ・トゥ・パッチの依存関係を探索するTransformer with Focal Attention (TwFA)を提案する。
論文 参考訳(メタデータ) (2022-06-02T08:34:25Z) - Compositional Sketch Search [91.84489055347585]
フリーハンドスケッチを用いて画像コレクションを検索するアルゴリズムを提案する。
シーン構成全体を特定するための簡潔で直感的な表現として描画を利用する。
論文 参考訳(メタデータ) (2021-06-15T09:38:09Z) - Deep Consensus Learning [16.834584070973676]
本稿では,レイアウト間合成と弱教師付き画像セマンティクスセグメンテーションのための深いコンセンサス学習を提案する。
2つの深いコンセンサスマッピングを使用して、3つのネットワークをエンドツーエンドにトレーニングする。
レイアウト・画像合成結果と弱教師付き画像セマンティックセグメンテーション結果を得る。
論文 参考訳(メタデータ) (2021-03-15T15:51:14Z) - Category Level Object Pose Estimation via Neural Analysis-by-Synthesis [64.14028598360741]
本稿では、勾配に基づくフィッティング法とパラメトリックニューラルネットワーク合成モジュールを組み合わせる。
画像合成ネットワークは、ポーズ設定空間を効率的に分散するように設計されている。
本研究では,2次元画像のみから高精度に物体の向きを復元できることを実験的に示す。
論文 参考訳(メタデータ) (2020-08-18T20:30:47Z) - Visual Transformers: Token-based Image Representation and Processing for
Computer Vision [67.55770209540306]
Visual Transformer (VT) はセマンティックトークン空間で動作し、コンテキストに基づいて異なる画像部品に任意に参加する。
高度なトレーニングレシピを使うことで、私たちのVTは畳み込みよりも大幅に優れています。
LIPとCOCO-stuffのセマンティックセグメンテーションでは、VTベースの特徴ピラミッドネットワーク(FPN)は、FPNモジュールのFLOPを6.5倍減らしながら、mIoUの0.35ポイントを達成している。
論文 参考訳(メタデータ) (2020-06-05T20:49:49Z) - Structural-analogy from a Single Image Pair [118.61885732829117]
本稿では,1対の画像A,Bのみを用いて,ニューラルネットワークによる画像構造理解能力について検討する。
我々は、B の外観とスタイルを保持するが、A に対応する構造的配置を持つ画像を生成する。
提案手法は,画像AとBのみを利用した条件生成タスクにおいて,高品質な画像を生成するために利用できる。
論文 参考訳(メタデータ) (2020-04-05T14:51:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。