論文の概要: Behind Every Domain There is a Shift: Adapting Distortion-aware Vision Transformers for Panoramic Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2207.11860v5
- Date: Fri, 31 May 2024 16:04:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 21:09:19.129541
- Title: Behind Every Domain There is a Shift: Adapting Distortion-aware Vision Transformers for Panoramic Semantic Segmentation
- Title(参考訳): すべてのドメインの後ろにシフトがある:パノラマセマンティックセマンティックセマンティックセグメンテーションのための歪み認識型視覚変換器の適応
- Authors: Jiaming Zhang, Kailun Yang, Hao Shi, Simon Reiß, Kunyu Peng, Chaoxiang Ma, Haodong Fu, Philip H. S. Torr, Kaiwei Wang, Rainer Stiefelhagen,
- Abstract要約: パノラマ的セマンティックセマンティックセグメンテーションは2つの重要な課題により未探索である。
まず、変形性パッチ埋め込み(DPE)と変形性(DMLPv2)モジュールを備えたパノラマセマンティックトランス4PASS+を改良したトランスフォーマーを提案する。
第2に、教師なしドメイン適応パノラマセグメンテーションのための擬似ラベル修正により、Mutual Prototypeal Adaptation(MPA)戦略を強化する。
第3に、Pinhole-to-Panoramic(Pin2Pan)適応とは別に、9,080パノラマ画像を用いた新しいデータセット(SynPASS)を作成します。
- 参考スコア(独自算出の注目度): 73.48323921632506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we address panoramic semantic segmentation which is under-explored due to two critical challenges: (1) image distortions and object deformations on panoramas; (2) lack of semantic annotations in the 360{\deg} imagery. To tackle these problems, first, we propose the upgraded Transformer for Panoramic Semantic Segmentation, i.e., Trans4PASS+, equipped with Deformable Patch Embedding (DPE) and Deformable MLP (DMLPv2) modules for handling object deformations and image distortions whenever (before or after adaptation) and wherever (shallow or deep levels). Second, we enhance the Mutual Prototypical Adaptation (MPA) strategy via pseudo-label rectification for unsupervised domain adaptive panoramic segmentation. Third, aside from Pinhole-to-Panoramic (Pin2Pan) adaptation, we create a new dataset (SynPASS) with 9,080 panoramic images, facilitating Synthetic-to-Real (Syn2Real) adaptation scheme in 360{\deg} imagery. Extensive experiments are conducted, which cover indoor and outdoor scenarios, and each of them is investigated with Pin2Pan and Syn2Real regimens. Trans4PASS+ achieves state-of-the-art performances on four domain adaptive panoramic semantic segmentation benchmarks. Code is available at https://github.com/jamycheung/Trans4PASS.
- Abstract(参考訳): 本稿では, パノラマ画像における画像歪みとオブジェクト変形, (2) 360{\deg} 画像における意味アノテーションの欠如という,2つの重要な課題により探索されていないパノラマ意味セグメンテーションに対処する。
まず, パノラマセマンティックセマンティックセグメンテーション用トランスフォーマー(Transformer for Panoramic Semantic Semantic Segmentation, Trans4PASS+)を提案する。
第2に、教師なしドメイン適応パノラマセグメンテーションのための擬似ラベル修正により、Mutual Prototypeal Adaptation(MPA)戦略を強化する。
第3に、Pinhole-to-Panoramic(Pin2Pan)適応とは別に、9,080パノラマ画像を備えた新しいデータセット(SynPASS)を作成し、360{\deg}イメージにおけるSyn2Real(Syn2Real)適応スキームを容易にする。
屋内および屋外のシナリオをカバーする大規模な実験を行い、それぞれがPin2PanとSyn2Realで調査された。
Trans4PASS+は4つのドメイン適応型パノラマセマンティックセマンティックセマンティックベンチマークで最先端のパフォーマンスを達成する。
コードはhttps://github.com/jamycheung/Trans4PASSで公開されている。
関連論文リスト
- Multi-source Domain Adaptation for Panoramic Semantic Segmentation [22.367890439050786]
パノラマ的セマンティックセグメンテーションのためのマルチソースドメイン適応のための新しいタスクを提案する。
本研究の目的は, 実際のピンホール合成パノラマ画像の両方をソース領域で活用することであり, セグメンテーションモデルが未ラベルの実際のパノラマ画像に対して良好に動作できるようにすることである。
DTA4PASSはソースドメインのすべてのピンホール画像をパノラマのようなイメージに変換し、変換されたソースドメインをターゲットドメインに整列させる。
論文 参考訳(メタデータ) (2024-08-29T12:00:11Z) - Dual-path Adaptation from Image to Video Transformers [62.056751480114784]
ViTやSwinのような視覚基盤モデルの超越する表現力を、トレーニング可能なパラメータ数だけでビデオ理解するために効率的に転送する。
本稿では,空間的および時間的適応経路に分離した新しいDualPath適応法を提案する。
論文 参考訳(メタデータ) (2023-03-17T09:37:07Z) - DeViT: Deformed Vision Transformers in Video Inpainting [59.73019717323264]
Deformed Patch-based Homography (DePtH)を導入して、パッチアライメントによる以前のトランスフォーマーを拡張した。
第2に、パッチワイズ機能マッチングを改善するために、Mask Pruning-based Patch Attention (MPPA)を導入する。
第3に、時空間トークンに対する正確な注意を得るために、時空間重み付け適応器(STA)モジュールを導入する。
論文 参考訳(メタデータ) (2022-09-28T08:57:14Z) - UniDAformer: Unified Domain Adaptive Panoptic Segmentation Transformer
via Hierarchical Mask Calibration [49.16591283724376]
単一ネットワーク内でのドメイン適応型インスタンス分割とセマンティックセマンティックセマンティックセマンティクスを同時に実現可能な,シンプルで統一されたドメイン適応型パン光学セマンティクスセマンティクス変換器UniDAformerを設計する。
UniDAformerは階層型マスク(Hierarchical Mask, HMC)を導入し、オンザフライでのオンラインセルフトレーニングを通じて、領域、スーパーピクセル、注釈付きピクセルのレベルで不正確な予測を修正した。
1) 統合されたドメイン適応型パン光学適応を可能にする; 2) 誤った予測を緩和し、ドメイン適応型パン光学セグメンテーションを効果的に改善する; 3) より単純なトレーニングと推論パイプラインでエンドツーエンドのトレーニングを可能にする。
論文 参考訳(メタデータ) (2022-06-30T07:32:23Z) - Cross-View Panorama Image Synthesis [68.35351563852335]
PanoGANは、新しい敵対的フィードバックGANフレームワークである。
PanoGANは、最先端のアプローチよりもより説得力のある、高品質なパノラマ画像生成を可能にする。
論文 参考訳(メタデータ) (2022-03-22T15:59:44Z) - Bending Reality: Distortion-aware Transformers for Adapting to Panoramic
Semantic Segmentation [26.09267582056609]
大量の高価なピクセル単位のアノテーションは、堅牢なパノラマセグメンテーションモデルの成功に不可欠である。
360度パノラマにおける歪みと画像-特徴分布は、アノテーションに富んだピンホールドメインからの転写を阻害する。
変形性パッチ埋め込み(DPE)および変形性変形性(DMLP)コンポーネントにおける物体変形とパノラマ画像歪みを学習する。
最後に、マルチスケールのプロトタイプ機能を生成することにより、ピンホールとパノラマの特徴埋め込みで共有セマンティクスを結合する。
論文 参考訳(メタデータ) (2022-03-02T23:00:32Z) - Transfer beyond the Field of View: Dense Panoramic Semantic Segmentation
via Unsupervised Domain Adaptation [30.104947024614127]
パノラマ的セマンティックセグメンテーションのための教師なしドメイン適応のタスクを形式化する。
DensePASSはドメイン横断条件下でのパノラマセグメンテーションのための新しいデータセットである。
P2PDAはPinhole-to-Panoramicセマンティックセグメンテーションのための汎用フレームワークである。
論文 参考訳(メタデータ) (2021-10-21T11:22:05Z) - DensePASS: Dense Panoramic Semantic Segmentation via Unsupervised Domain
Adaptation with Attention-Augmented Context Exchange [32.29797061415896]
パノラマ的セマンティックセグメンテーションのための教師なしドメイン適応のタスクを形式化する。
パノラマ画像の異なるターゲット領域にピンホールカメラデータのソース領域からラベル付き例に基づいて訓練されたネットワークを配置する。
我々は、注目強化ドメイン適応モジュールの異なる変種に基づいて、ドメイン間パノラマセマンティックセマンティックセマンティックセマンティクスのための汎用フレームワークを構築した。
論文 参考訳(メタデータ) (2021-08-13T20:15:46Z) - Panoramic Panoptic Segmentation: Towards Complete Surrounding
Understanding via Unsupervised Contrastive Learning [97.37544023666833]
我々は,パノラマパオプティックセグメンテーションを最も総合的なシーン理解として導入する。
完全な周囲の理解は、エージェントに最大限の情報を提供する。
標準ピンホール画像のモデルトレーニングを可能にし、学習した機能を異なるドメインに転送するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-01T09:37:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。