論文の概要: Multi-scale Semantic Prior Features Guided Deep Neural Network for Urban Street-view Image
- arxiv url: http://arxiv.org/abs/2405.10504v1
- Date: Fri, 17 May 2024 03:02:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-20 17:11:53.595651
- Title: Multi-scale Semantic Prior Features Guided Deep Neural Network for Urban Street-view Image
- Title(参考訳): 都市ストリートビュー画像のためのディープニューラルネットワークのマルチスケールセマンティック事前特徴
- Authors: Jianshun Zeng, Wang Li, Yanjie Lv, Shuai Gao, YuChu Qin,
- Abstract要約: 本稿では,ストリートビュー画像の描画のための新しいディープニューラルネットワーク(DNN)を提案する。
大規模な事前学習モデルからリッチなセマンティックプリプロンプトを学習するためにセマンティックプリプロンプトが導入された。
ApolloscapesとCityscapesデータセットの実験は、最先端の方法よりも優れたパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 1.4473649585131072
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Street-view image has been widely applied as a crucial mobile mapping data source. The inpainting of street-view images is a critical step for street-view image processing, not only for the privacy protection, but also for the urban environment mapping applications. This paper presents a novel Deep Neural Network (DNN), multi-scale semantic prior Feature guided image inpainting Network (MFN) for inpainting street-view images, which generate static street-view images without moving objects (e.g., pedestrians, vehicles). To enhance global context understanding, a semantic prior prompter is introduced to learn rich semantic priors from large pre-trained model. We design the prompter by stacking multiple Semantic Pyramid Aggregation (SPA) modules, capturing a broad range of visual feature patterns. A semantic-enhanced image generator with a decoder is proposed that incorporates a novel cascaded Learnable Prior Transferring (LPT) module at each scale level. For each decoder block, an attention transfer mechanism is applied to capture long-term dependencies, and the semantic prior features are fused with the image features to restore plausible structure in an adaptive manner. Additionally, a background-aware data processing scheme is adopted to prevent the generation of hallucinated objects within holes. Experiments on Apolloscapes and Cityscapes datasets demonstrate better performance than state-of-the-art methods, with MAE, and LPIPS showing improvements of about 9.5% and 41.07% respectively. Visual comparison survey among multi-group person is also conducted to provide performance evaluation, and the results suggest that the proposed MFN offers a promising solution for privacy protection and generate more reliable scene for urban applications with street-view images.
- Abstract(参考訳): ストリートビュー画像は重要なモバイルマッピングデータソースとして広く利用されている。
ストリートビュー画像の塗装は、プライバシー保護だけでなく、都市環境マッピングにも重要なステップである。
本稿では、移動物体(歩行者、車両など)を使わずに静的なストリートビュー画像を生成する、ストリートビュー画像のインペイントのためのマルチスケールセマンティック先行特徴画像インペイントネットワーク(MFN)であるDeep Neural Network(DNN)を提案する。
グローバルな文脈理解を強化するために、大規模な事前学習モデルからリッチなセマンティック・プレプロンプトを学習するためにセマンティック・プレプロンプトが導入された。
複数のセマンティックピラミッド集合(SPA)モジュールを積み重ねてプロンプトを設計し、幅広い視覚的特徴パターンを抽出する。
デコーダ付きセマンティックエンハンスドイメージジェネレータが提案され,各スケールに新たなLPTモジュールが組み込まれている。
各デコーダブロックに対して、長期的依存関係をキャプチャするためのアテンション転送機構を適用し、画像特徴とセマンティック先行特徴を融合させて、可視構造を適応的に復元する。
また、ホール内の幻影物の発生を防止するために、背景認識データ処理方式を採用する。
Apolloscapes と Cityscapes のデータセットの実験では、最先端の手法よりも優れたパフォーマンスを示しており、MAE と LPIPS はそれぞれ 9.5% と 41.07% の改善を示している。
また, 複数グループを対象とした視覚的比較調査を行い, 性能評価を行った。その結果, 提案したMFNは, プライバシ保護のための有望なソリューションであり, 街路ビュー画像を用いた都市アプリケーションのためのより信頼性の高いシーンを生成することが示唆された。
関連論文リスト
- PROMPT-IML: Image Manipulation Localization with Pre-trained Foundation
Models Through Prompt Tuning [35.39822183728463]
本稿では,改ざん画像を検出するための新しいPrompt-IMLフレームワークを提案する。
人間は、意味情報と高周波情報に基づいて、画像の真偽を識別する傾向がある。
我々のモデルは8つの典型的なフェイク画像データセットでより良い性能を得ることができる。
論文 参考訳(メタデータ) (2024-01-01T03:45:07Z) - Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - Masked Contrastive Graph Representation Learning for Age Estimation [44.96502862249276]
本稿では,画像冗長性情報を扱う上で,グラフ表現学習の特性を利用する。
年齢推定のためのMasked Contrastive Graph Representation Learning (MCGRL)法を提案する。
実世界の顔画像データセットに対する実験結果から,提案手法が他の最先端の年齢推定手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-06-16T15:53:21Z) - Sketch-Guided Text-to-Image Diffusion Models [57.12095262189362]
本稿では,事前訓練されたテキスト-画像拡散モデルを示す普遍的なアプローチを提案する。
本手法では,タスク専用のモデルや専用エンコーダをトレーニングする必要はない。
我々は、スケッチ・ツー・イメージの翻訳タスクに特に焦点をあて、画像を生成する堅牢で表現力のある方法を明らかにする。
論文 参考訳(メタデータ) (2022-11-24T18:45:32Z) - USegScene: Unsupervised Learning of Depth, Optical Flow and Ego-Motion
with Semantic Guidance and Coupled Networks [31.600708674008384]
UegSceneは、ステレオカメラ画像の奥行き、光学的流れ、エゴモーション推定を意味的に導くためのフレームワークである。
一般的なKITTIデータセットを用いて,提案手法が他の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2022-07-15T13:25:47Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Fully Context-Aware Image Inpainting with a Learned Semantic Pyramid [102.24539566851809]
画像中の任意の欠落する領域に対して、合理的で現実的なコンテンツを復元することは、重要な課題である。
最近の画像インパインティングモデルは鮮明な視覚的詳細を生成するために大きな進歩を遂げているが、それでもテクスチャのぼやけや構造的歪みにつながる可能性がある。
本研究では,画像中の局所的欠落コンテンツの回復に大きく貢献する,多スケールなセマンティック・セマンティック・ピラミッド・ネットワーク(SPN)を提案する。
論文 参考訳(メタデータ) (2021-12-08T04:33:33Z) - ViCE: Self-Supervised Visual Concept Embeddings as Contextual and Pixel
Appearance Invariant Semantic Representations [77.3590853897664]
本研究は,NLPにおける単語埋め込みの学習方法に着想を得た画像に対して,意味論的にリッチな視覚埋め込みを学習するための自己指導的手法を提案する。
論文 参考訳(メタデータ) (2021-11-24T12:27:30Z) - Transformer Meets Convolution: A Bilateral Awareness Net-work for
Semantic Segmentation of Very Fine Resolution Ur-ban Scene Images [6.460167724233707]
本稿では,依存経路とテクスチャパスを含む相互認知ネットワーク(BANet)を提案する。
BANetは、VFR画像の長距離関係と細かな詳細をキャプチャする。
3つの大規模都市景観画像セグメンテーションデータセット(ISPRS Vaihingen データセット、ISPRS Potsdam データセット、UAVid データセット)で実施された実験は、BANetの有効性を実証している。
論文 参考訳(メタデータ) (2021-06-23T13:57:36Z) - Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。
ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。
合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文 参考訳(メタデータ) (2020-04-01T12:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。