論文の概要: Towards Full-to-Empty Room Generation with Structure-Aware Feature
Encoding and Soft Semantic Region-Adaptive Normalization
- arxiv url: http://arxiv.org/abs/2112.05396v1
- Date: Fri, 10 Dec 2021 09:00:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-13 14:49:01.716387
- Title: Towards Full-to-Empty Room Generation with Structure-Aware Feature
Encoding and Soft Semantic Region-Adaptive Normalization
- Title(参考訳): 構造認識特徴符号化とソフトセマンティクス領域適応正規化による全空室生成に向けて
- Authors: Vasileios Gkitsas, Nikolaos Zioulis, Vladimiros Sterzentsenko,
Alexandros Doumanoglou, Dimitrios Zarpalas
- Abstract要約: 本稿では,ソフトセマンティックな領域適応正規化モジュール (softSEAN) ブロックを提案する。
我々のアプローチは、トレーニングの複雑さと非微分可能性の問題を緩和することの利点の他に、比較した手法を量的にも質的にも上回っている。
我々のSoftSEANブロックは、既存の識別および生成モデルのためのドロップインモジュールとして使用することができる。
- 参考スコア(独自算出の注目度): 67.64622529651677
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The task of transforming a furnished room image into a background-only is
extremely challenging since it requires making large changes regarding the
scene context while still preserving the overall layout and style. In order to
acquire photo-realistic and structural consistent background, existing deep
learning methods either employ image inpainting approaches or incorporate the
learning of the scene layout as an individual task and leverage it later in a
not fully differentiable semantic region-adaptive normalization module. To
tackle these drawbacks, we treat scene layout generation as a feature linear
transformation problem and propose a simple yet effective adjusted fully
differentiable soft semantic region-adaptive normalization module (softSEAN)
block. We showcase the applicability in diminished reality and depth estimation
tasks, where our approach besides the advantages of mitigating training
complexity and non-differentiability issues, surpasses the compared methods
both quantitatively and qualitatively. Our softSEAN block can be used as a
drop-in module for existing discriminative and generative models.
Implementation is available on vcl3d.github.io/PanoDR/.
- Abstract(参考訳): 全体のレイアウトやスタイルを保ちながら、シーンコンテキストに大きな変更を加える必要があるため、空き部屋イメージを背景のみに変換する作業は極めて困難である。
フォトリアリスティックで構造的一貫性のある背景を得るために、既存のディープラーニング手法では、イメージインペインティングアプローチを採用するか、シーンレイアウトの学習を個別のタスクとして取り入れ、後に完全に区別できないセマンティック領域適応正規化モジュールで活用する。
これらの欠点に対処するために,シーンレイアウト生成を特徴線形変換問題として扱い,完全微分可能なソフトセマンティクス領域適応正規化モジュール(softsean)ブロックを提案する。
そこでは,学習の複雑さと非微分可能性の問題の軽減に加えて,比較手法を定量的かつ定性的に上回っている。
当社のsoftseanブロックは、既存の判別および生成モデルのドロップインモジュールとして使用できる。
vcl3d.github.io/PanoDR/で実装できる。
関連論文リスト
- A Spitting Image: Modular Superpixel Tokenization in Vision Transformers [0.0]
Vision Transformer (ViT) アーキテクチャは伝統的に、画像の意味的内容に依存しないトークン化のためのグリッドベースのアプローチを採用している。
本稿では,トークン化と特徴抽出を分離するモジュール型スーパーピクセルトークン化戦略を提案する。
論文 参考訳(メタデータ) (2024-08-14T17:28:58Z) - Structure-Guided Image Completion with Image-level and Object-level Semantic Discriminators [97.12135238534628]
複雑な意味論やオブジェクトの生成を改善するために,セマンティック・ディミネータとオブジェクトレベル・ディミネータからなる学習パラダイムを提案する。
特に、セマンティック・ディミネーターは、事前学習された視覚的特徴を利用して、生成された視覚概念の現実性を改善する。
提案手法は, 生成品質を著しく向上させ, 各種タスクの最先端化を実現する。
論文 参考訳(メタデータ) (2022-12-13T01:36:56Z) - Image-Specific Information Suppression and Implicit Local Alignment for
Text-based Person Search [61.24539128142504]
テキストベースの人物検索(TBPS)は,問合せテキストが与えられた画像ギャラリーから同一の身元で歩行者画像を検索することを目的とした課題である。
既存の手法の多くは、モダリティ間の微粒な対応をモデル化するために、明示的に生成された局所的な部分に依存している。
TBPSのためのマルチレベルアライメントネットワーク(MANet)を提案する。
論文 参考訳(メタデータ) (2022-08-30T16:14:18Z) - Situational Perception Guided Image Matting [16.1897179939677]
本研究では,マットアノテーションの主観バイアスを緩和する状況認識ガイド画像マッチング(SPG-IM)手法を提案する。
SPG-IMは、オブジェクト間およびオブジェクト間サリエンシをよりよく関連付けることができ、画像マッチングの主観的性質を補うことができる。
論文 参考訳(メタデータ) (2022-04-20T07:35:51Z) - Retrieval-based Spatially Adaptive Normalization for Semantic Image
Synthesis [68.1281982092765]
本稿では,Retrieval-based spatially AdaptIve normalization (RESAIL) と呼ばれる新しい正規化モジュールを提案する。
RESAILは、正規化アーキテクチャに対するピクセルレベルのきめ細かいガイダンスを提供する。
いくつかの挑戦的なデータセットの実験により、RESAILは定量的メトリクス、視覚的品質、主観的評価の観点から、最先端技術に対して好意的に機能することが示された。
論文 参考訳(メタデータ) (2022-04-06T14:21:39Z) - Towards Controllable and Photorealistic Region-wise Image Manipulation [11.601157452472714]
地域ごとのスタイル操作のための自動エンコーダアーキテクチャを用いた生成モデルを提案する。
我々は、コンテンツとスタイルの潜在表現の明示的な乱れを強制するために、コード一貫性の損失を適用します。
このモデルは、前景編集が背景コンテンツに干渉しないように、コンテンツアライメント損失によって制約される。
論文 参考訳(メタデータ) (2021-08-19T13:29:45Z) - An Adaptive Framework for Learning Unsupervised Depth Completion [59.17364202590475]
カラー画像から高密度深度マップとそれに伴うスパース深度測定を推定する手法を提案する。
正規化とコビジュアライゼーションは、モデルの適合度とデータによって関連付けられており、単一のフレームワークに統合可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T02:27:55Z) - Controllable Person Image Synthesis with Spatially-Adaptive Warped
Normalization [72.65828901909708]
制御可能な人物画像生成は、望ましい属性を持つ現実的な人間の画像を作成することを目的としている。
本稿では,学習フロー場とワープ変調パラメータを統合した空間適応型ワープ正規化(SAWN)を提案する。
本稿では,テクスチャ・トランスファータスクの事前学習モデルを洗練するための,新たな自己学習部分置換戦略を提案する。
論文 参考訳(メタデータ) (2021-05-31T07:07:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。