論文の概要: Behind Every Domain There is a Shift: Adapting Distortion-aware Vision
Transformers for Panoramic Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2207.11860v2
- Date: Wed, 27 Jul 2022 09:25:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-28 11:14:05.415043
- Title: Behind Every Domain There is a Shift: Adapting Distortion-aware Vision
Transformers for Panoramic Semantic Segmentation
- Title(参考訳): すべての領域の裏側にシフトがある:パノラマ意味セグメンテーションのための歪み認識視覚トランスフォーマーの適用
- Authors: Jiaming Zhang, Kailun Yang, Hao Shi, Simon Rei{\ss}, Kunyu Peng,
Chaoxiang Ma, Haodong Fu, Kaiwei Wang, Rainer Stiefelhagen
- Abstract要約: 本研究では,パノラマ的セマンティックセマンティックセマンティックセマンティフィケーション(セマンティフィケーション,セマンティフィケーション,セマンティフィケーション,セマンティフィケーション,セマンティフィケーション)を包括的に扱う。
パノラマのセグメンテーションは、画像の歪みとパノラマ上の物体の変形という2つの重要な課題により、未発見である。
これらの問題に対処するために,パノラマ・セマンティック (Trans4PASS) アーキテクチャのためのトランスフォーマーを提案する。
- 参考スコア(独自算出の注目度): 25.72171110516597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we address panoramic semantic segmentation, which provides a
full-view and dense-pixel understanding of surroundings in a holistic way.
Panoramic segmentation is under-explored due to two critical challenges: (1)
image distortions and object deformations on panoramas; (2) lack of annotations
for training panoramic segmenters. To tackle these problems, we propose a
Transformer for Panoramic Semantic Segmentation (Trans4PASS) architecture.
First, to enhance distortion awareness, Trans4PASS, equipped with Deformable
Patch Embedding (DPE) and Deformable MLP (DMLP) modules, is capable of handling
object deformations and image distortions whenever (before or after adaptation)
and wherever (shallow or deep levels) by design. We further introduce the
upgraded Trans4PASS+ model, featuring DMLPv2 with parallel token mixing to
improve the flexibility and generalizability in modeling discriminative cues.
Second, we propose a Mutual Prototypical Adaptation (MPA) strategy for
unsupervised domain adaptation. Third, aside from Pinhole-to-Panoramic
(Pin2Pan) adaptation, we create a new dataset (SynPASS) with 9,080 panoramic
images to explore a Synthetic-to-Real (Syn2Real) adaptation scheme in 360{\deg}
imagery. Extensive experiments are conducted, which cover indoor and outdoor
scenarios, and each of them is investigated with Pin2Pan and Syn2Real regimens.
Trans4PASS+ achieves state-of-the-art performances on four domain adaptive
panoramic semantic segmentation benchmarks. Code is available at
https://github.com/jamycheung/Trans4PASS.
- Abstract(参考訳): 本稿では,パノラマ意味セグメンテーション(panoramic semantic segmentation,パノラマ意味セグメンテーション)について述べる。
パノラマセグメンテーションは,(1)パノラマ上の画像歪みと物体変形,(2)パノラマセグメンタの訓練のためのアノテーションの欠如,の2つの重要な課題により未検討である。
そこで本研究では,パノラマセマンティクスセグメンテーション(trans4pass)アーキテクチャのためのトランスフォーマーを提案する。
まず,DPE(Deformable Patch Embedding)モジュールとDMLP(Deformable MLP)モジュールを備えるTrans4PASSは,物体の変形や画像の歪みを,(適応前や後などで)設計上,任意の場所(浅層や深層)で処理することができる。
さらに,dmlpv2と並列トークン混合を特徴とする改良されたtrans4pass+モデルについても紹介する。
第2に,教師なしドメイン適応のための相互原型適応 (mpa) 戦略を提案する。
第3に、Pinhole-to-Panoramic(Pin2Pan)適応とは別に、9,080パノラマ画像を持つ新しいデータセット(SynPASS)を作成し、360{\deg}画像のSyn2Real適応スキームを探索する。
室内および屋外のシナリオをカバーする広範な実験を行い,各シナリオをpin2panおよびsyn2real regimensを用いて検討した。
Trans4PASS+は4つのドメイン適応型パノラマセマンティックセマンティックセマンティックベンチマークで最先端のパフォーマンスを達成する。
コードはhttps://github.com/jamycheung/trans4passで入手できる。
関連論文リスト
- Multi-source Domain Adaptation for Panoramic Semantic Segmentation [22.367890439050786]
パノラマ的セマンティックセグメンテーションのためのマルチソースドメイン適応のための新しいタスクを提案する。
本研究の目的は, 実際のピンホール合成パノラマ画像の両方をソース領域で活用することであり, セグメンテーションモデルが未ラベルの実際のパノラマ画像に対して良好に動作できるようにすることである。
DTA4PASSはソースドメインのすべてのピンホール画像をパノラマのようなイメージに変換し、変換されたソースドメインをターゲットドメインに整列させる。
論文 参考訳(メタデータ) (2024-08-29T12:00:11Z) - Dual-path Adaptation from Image to Video Transformers [62.056751480114784]
ViTやSwinのような視覚基盤モデルの超越する表現力を、トレーニング可能なパラメータ数だけでビデオ理解するために効率的に転送する。
本稿では,空間的および時間的適応経路に分離した新しいDualPath適応法を提案する。
論文 参考訳(メタデータ) (2023-03-17T09:37:07Z) - DeViT: Deformed Vision Transformers in Video Inpainting [59.73019717323264]
Deformed Patch-based Homography (DePtH)を導入して、パッチアライメントによる以前のトランスフォーマーを拡張した。
第2に、パッチワイズ機能マッチングを改善するために、Mask Pruning-based Patch Attention (MPPA)を導入する。
第3に、時空間トークンに対する正確な注意を得るために、時空間重み付け適応器(STA)モジュールを導入する。
論文 参考訳(メタデータ) (2022-09-28T08:57:14Z) - UniDAformer: Unified Domain Adaptive Panoptic Segmentation Transformer
via Hierarchical Mask Calibration [49.16591283724376]
単一ネットワーク内でのドメイン適応型インスタンス分割とセマンティックセマンティックセマンティックセマンティクスを同時に実現可能な,シンプルで統一されたドメイン適応型パン光学セマンティクスセマンティクス変換器UniDAformerを設計する。
UniDAformerは階層型マスク(Hierarchical Mask, HMC)を導入し、オンザフライでのオンラインセルフトレーニングを通じて、領域、スーパーピクセル、注釈付きピクセルのレベルで不正確な予測を修正した。
1) 統合されたドメイン適応型パン光学適応を可能にする; 2) 誤った予測を緩和し、ドメイン適応型パン光学セグメンテーションを効果的に改善する; 3) より単純なトレーニングと推論パイプラインでエンドツーエンドのトレーニングを可能にする。
論文 参考訳(メタデータ) (2022-06-30T07:32:23Z) - Cross-View Panorama Image Synthesis [68.35351563852335]
PanoGANは、新しい敵対的フィードバックGANフレームワークである。
PanoGANは、最先端のアプローチよりもより説得力のある、高品質なパノラマ画像生成を可能にする。
論文 参考訳(メタデータ) (2022-03-22T15:59:44Z) - Bending Reality: Distortion-aware Transformers for Adapting to Panoramic
Semantic Segmentation [26.09267582056609]
大量の高価なピクセル単位のアノテーションは、堅牢なパノラマセグメンテーションモデルの成功に不可欠である。
360度パノラマにおける歪みと画像-特徴分布は、アノテーションに富んだピンホールドメインからの転写を阻害する。
変形性パッチ埋め込み(DPE)および変形性変形性(DMLP)コンポーネントにおける物体変形とパノラマ画像歪みを学習する。
最後に、マルチスケールのプロトタイプ機能を生成することにより、ピンホールとパノラマの特徴埋め込みで共有セマンティクスを結合する。
論文 参考訳(メタデータ) (2022-03-02T23:00:32Z) - Transfer beyond the Field of View: Dense Panoramic Semantic Segmentation
via Unsupervised Domain Adaptation [30.104947024614127]
パノラマ的セマンティックセグメンテーションのための教師なしドメイン適応のタスクを形式化する。
DensePASSはドメイン横断条件下でのパノラマセグメンテーションのための新しいデータセットである。
P2PDAはPinhole-to-Panoramicセマンティックセグメンテーションのための汎用フレームワークである。
論文 参考訳(メタデータ) (2021-10-21T11:22:05Z) - DensePASS: Dense Panoramic Semantic Segmentation via Unsupervised Domain
Adaptation with Attention-Augmented Context Exchange [32.29797061415896]
パノラマ的セマンティックセグメンテーションのための教師なしドメイン適応のタスクを形式化する。
パノラマ画像の異なるターゲット領域にピンホールカメラデータのソース領域からラベル付き例に基づいて訓練されたネットワークを配置する。
我々は、注目強化ドメイン適応モジュールの異なる変種に基づいて、ドメイン間パノラマセマンティックセマンティックセマンティックセマンティクスのための汎用フレームワークを構築した。
論文 参考訳(メタデータ) (2021-08-13T20:15:46Z) - Panoramic Panoptic Segmentation: Towards Complete Surrounding
Understanding via Unsupervised Contrastive Learning [97.37544023666833]
我々は,パノラマパオプティックセグメンテーションを最も総合的なシーン理解として導入する。
完全な周囲の理解は、エージェントに最大限の情報を提供する。
標準ピンホール画像のモデルトレーニングを可能にし、学習した機能を異なるドメインに転送するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-01T09:37:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。