論文の概要: Transferring to Real-World Layouts: A Depth-aware Framework for Scene
Adaptation
- arxiv url: http://arxiv.org/abs/2311.12682v1
- Date: Tue, 21 Nov 2023 15:39:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 00:04:48.438522
- Title: Transferring to Real-World Layouts: A Depth-aware Framework for Scene
Adaptation
- Title(参考訳): リアルワールドレイアウトへのトランスファー:シーン適応のための奥行き認識フレームワーク
- Authors: Mu Chen, Zhedong Zheng, Yi Yang
- Abstract要約: 教師なしドメイン適応(UDA)によるシーンセグメンテーションは、ソース合成データから取得した知識を現実のターゲットデータに転送することを可能にする。
深度推定を明示的に活用してカテゴリを混合し,2つの補完的タスク,すなわちセグメンテーションと深度学習を促進するための奥行き認識フレームワークを提案する。
特に、このフレームワークには、DCF(Depth-guided Contextual Filter)フォーンデータ拡張と、コンテキスト学習のためのクロスタスクエンコーダが含まれている。
- 参考スコア(独自算出の注目度): 39.09627986402352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene segmentation via unsupervised domain adaptation (UDA) enables the
transfer of knowledge acquired from source synthetic data to real-world target
data, which largely reduces the need for manual pixel-level annotations in the
target domain. To facilitate domain-invariant feature learning, existing
methods typically mix data from both the source domain and target domain by
simply copying and pasting the pixels. Such vanilla methods are usually
sub-optimal since they do not take into account how well the mixed layouts
correspond to real-world scenarios. Real-world scenarios are with an inherent
layout. We observe that semantic categories, such as sidewalks, buildings, and
sky, display relatively consistent depth distributions, and could be clearly
distinguished in a depth map. Based on such observation, we propose a
depth-aware framework to explicitly leverage depth estimation to mix the
categories and facilitate the two complementary tasks, i.e., segmentation and
depth learning in an end-to-end manner. In particular, the framework contains a
Depth-guided Contextual Filter (DCF) forndata augmentation and a cross-task
encoder for contextual learning. DCF simulates the real-world layouts, while
the cross-task encoder further adaptively fuses the complementing features
between two tasks. Besides, it is worth noting that several public datasets do
not provide depth annotation. Therefore, we leverage the off-the-shelf depth
estimation network to generate the pseudo depth. Extensive experiments show
that our proposed methods, even with pseudo depth, achieve competitive
performance on two widely-used bench-marks, i.e. 77.7 mIoU on GTA to Cityscapes
and 69.3 mIoU on Synthia to Cityscapes.
- Abstract(参考訳): unsupervised domain adaptation(uda)によるシーンセグメンテーションは、ソース合成データから取得した知識を現実世界のターゲットデータに転送することを可能にする。
ドメイン不変特徴学習を容易にするために、既存の手法では、ピクセルをコピー&ペーストするだけで、ソースドメインとターゲットドメインの両方からデータを混合する。
このようなバニラメソッドは通常、実際のシナリオと混合レイアウトがどの程度うまく対応しているかを考慮しないため、サブ最適である。
現実世界のシナリオには固有のレイアウトがある。
我々は,歩道,建物,空などの意味カテゴリーが比較的一貫した深度分布を示し,深度マップで明確に区別できることを示した。
このような観察に基づいて,深度推定を的確に活用してカテゴリを混合し,2つの補完的タスク,すなわちセグメント化と深度学習をエンドツーエンドで促進する,深度認識フレームワークを提案する。
特にこのフレームワークには、dcf(deep-guided context filter)forndata拡張と、コンテキスト学習のためのクロスタスクエンコーダが含まれている。
DCFは現実世界のレイアウトをシミュレートし、クロスタスクエンコーダはさらに2つのタスク間の補完機能を融合させる。
さらに、いくつかの公開データセットが深さアノテーションを提供していない点にも注意が必要だ。
そこで本研究では,既設深度推定ネットワークを用いて擬似深度を生成する。
GTAからCityscapesへの77.7 mIoUとSynthiaからCityscapesへの69.3 mIoUの2つの広く使われているベンチマークに対して,提案手法が擬似深度でも競争性能を発揮することを示す。
関連論文リスト
- Depth-aware Volume Attention for Texture-less Stereo Matching [67.46404479356896]
実用的な屋外シナリオにおけるテクスチャ劣化に対処する軽量なボリューム改善手法を提案する。
画像テクスチャの相対的階層を抽出し,地中深度マップによって教師される深度体積を導入する。
局所的な微細構造と文脈は、体積凝集時のあいまいさと冗長性を緩和するために強調される。
論文 参考訳(メタデータ) (2024-02-14T04:07:44Z) - SemHint-MD: Learning from Noisy Semantic Labels for Self-Supervised
Monocular Depth Estimation [19.229255297016635]
自己教師付き深度推定は、光度損失の勾配-局所性の問題により、局所的に最小限に抑えられる。
セマンティックセグメンテーションを活用して、ネットワークを局所的な最小限から切り離すための奥行きを高めるためのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-31T17:20:27Z) - One scalar is all you need -- absolute depth estimation using monocular
self-supervision [59.45414406974091]
自己教師付き単眼深度推定器は、画像のみを使用し、地中深度データがない新しいシーンで訓練または微調整することができる。
これらの推定器は、深度スケールの固有の曖昧さに悩まされ、適用性が著しく制限される。
本稿では,地中深度で収集した既存のソースデータセットから,自己監督を用いて訓練した深度推定器へ深度スケールを転送する手法を提案する。
論文 参考訳(メタデータ) (2023-03-14T07:07:34Z) - Towards Domain-agnostic Depth Completion [96.67020906681175]
既存の深度補完法は、しばしば特定のスパース深度型を目標とし、タスク領域間での一般化が不十分である。
各種センサで得られたスパース/セミデンス,ノイズ,および低分解能深度マップを完備する手法を提案する。
本手法は,最先端の深度補完法に対して優れたクロスドメイン一般化能力を示す。
論文 参考訳(メタデータ) (2022-07-29T04:10:22Z) - Multi-Frame Self-Supervised Depth with Transformers [33.00363651105475]
本稿では,コストボリューム生成のためのトランスフォーマーアーキテクチャを提案する。
深度分布型エピポーラサンプリングを用いて、マッチング候補を選択する。
私たちは、一連の自己と横断的なレイヤを通じて予測を洗練します。
論文 参考訳(メタデータ) (2022-04-15T19:04:57Z) - Domain Adaptive Semantic Segmentation with Self-Supervised Depth
Estimation [84.34227665232281]
セマンティックセグメンテーションのためのドメイン適応は、ソースとターゲットドメイン間の分散シフトの存在下でモデルのパフォーマンスを向上させることを目的とする。
ドメイン間のギャップを埋めるために、両ドメインで利用可能な自己教師付き深さ推定からのガイダンスを活用します。
提案手法のベンチマークタスクSYNTHIA-to-CityscapesとGTA-to-Cityscapesの有効性を実証する。
論文 参考訳(メタデータ) (2021-04-28T07:47:36Z) - S2R-DepthNet: Learning a Generalizable Depth-specific Structural
Representation [63.58891781246175]
人間はリアルなイメージではなくスケッチからシーンの3次元幾何学を推測することができ、空間構造がシーンの深さを理解する上で基本的な役割を果たすことを示す。
我々は,深度推定に不可欠な特徴を捉え,無関係なスタイル情報を無視する,深度特異的な構造表現の学習を初めて行う。
当社のS2R-DepthNetは、合成データでのみ訓練されているにもかかわらず、目に見えない実際のデータに直接一般化できます。
論文 参考訳(メタデータ) (2021-04-02T03:55:41Z) - Learning Depth via Leveraging Semantics: Self-supervised Monocular Depth
Estimation with Both Implicit and Explicit Semantic Guidance [34.62415122883441]
シーン認識深度推定のための暗黙的意味特徴と深度特徴とを一致させるセマンティック認識空間特徴アライメント方式を提案する。
また,推定深度マップを実シーンの文脈特性と整合性に明示的に制約する意味誘導型ランキング損失を提案する。
複雑なシーンや多様なセマンティックカテゴリで一貫して優れた、高品質な深度マップを作成します。
論文 参考訳(メタデータ) (2021-02-11T14:29:51Z) - Semantic-Guided Representation Enhancement for Self-supervised Monocular
Trained Depth Estimation [39.845944724079814]
自己教師付き深度推定は,画像列のみを入力として,高品質の深度マップを作成する上で大きな効果を示した。
しかし、その性能は通常、限界深度表現能力のために境界領域や細い構造を持つ物体を推定する際に低下する。
局所的および大域的な深度特徴表現を促進する意味誘導深度表現拡張法を提案する。
論文 参考訳(メタデータ) (2020-12-15T02:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。