論文の概要: Bending Reality: Distortion-aware Transformers for Adapting to Panoramic
Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2203.01452v1
- Date: Wed, 2 Mar 2022 23:00:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-04 16:39:02.818056
- Title: Bending Reality: Distortion-aware Transformers for Adapting to Panoramic
Semantic Segmentation
- Title(参考訳): 曲げ現実:パノラマ意味セグメンテーションへの適応のための歪み認識トランスフォーマー
- Authors: Jiaming Zhang, Kailun Yang, Chaoxiang Ma, Simon Rei{\ss}, Kunyu Peng,
Rainer Stiefelhagen
- Abstract要約: 大量の高価なピクセル単位のアノテーションは、堅牢なパノラマセグメンテーションモデルの成功に不可欠である。
360度パノラマにおける歪みと画像-特徴分布は、アノテーションに富んだピンホールドメインからの転写を阻害する。
変形性パッチ埋め込み(DPE)および変形性変形性(DMLP)コンポーネントにおける物体変形とパノラマ画像歪みを学習する。
最後に、マルチスケールのプロトタイプ機能を生成することにより、ピンホールとパノラマの特徴埋め込みで共有セマンティクスを結合する。
- 参考スコア(独自算出の注目度): 26.09267582056609
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Panoramic images with their 360-degree directional view encompass exhaustive
information about the surrounding space, providing a rich foundation for scene
understanding. To unfold this potential in the form of robust panoramic
segmentation models, large quantities of expensive, pixel-wise annotations are
crucial for success. Such annotations are available, but predominantly for
narrow-angle, pinhole-camera images which, off the shelf, serve as sub-optimal
resources for training panoramic models. Distortions and the distinct
image-feature distribution in 360-degree panoramas impede the transfer from the
annotation-rich pinhole domain and therefore come with a big dent in
performance. To get around this domain difference and bring together semantic
annotations from pinhole- and 360-degree surround-visuals, we propose to learn
object deformations and panoramic image distortions in the Deformable Patch
Embedding (DPE) and Deformable MLP (DMLP) components which blend into our
Transformer for PAnoramic Semantic Segmentation (Trans4PASS) model. Finally, we
tie together shared semantics in pinhole- and panoramic feature embeddings by
generating multi-scale prototype features and aligning them in our Mutual
Prototypical Adaptation (MPA) for unsupervised domain adaptation. On the indoor
Stanford2D3D dataset, our Trans4PASS with MPA maintains comparable performance
to fully-supervised state-of-the-arts, cutting the need for over 1,400 labeled
panoramas. On the outdoor DensePASS dataset, we break state-of-the-art by
14.39% mIoU and set the new bar at 56.38%. Code will be made publicly available
at https://github.com/jamycheung/Trans4PASS.
- Abstract(参考訳): パノラマ画像とその360度方向ビューは周囲の空間に関する情報を網羅し、シーン理解のための豊かな基盤を提供する。
このポテンシャルをロバストなパノラマ分割モデルに展開するためには、大量の高価なピクセル単位のアノテーションが成功に不可欠である。
このようなアノテーションは利用可能だが、主に狭角ピンホールカメラ画像で、棚から外れてパノラマモデルのトレーニングに最適なサブリソースとして機能する。
歪みと360度パノラマにおける画像特徴分布は、アノテーションに富んだピンホール領域からの移動を妨げるため、性能に大きな変化をもたらす。
この領域の違いを回避し、ピンホールおよび360度のサラウンドビジュアルからセマンティックアノテーションをまとめるために、変形可能なパッチ埋め込み(dpe)および変形可能なmlp(dmlp)コンポーネントにおけるオブジェクトの変形とパノラマ画像の歪みを学習し、パノラマ意味セグメンテーション(trans4pass)モデルのためのトランスフォーマーにブレンドする。
最後に,共有セマンティクスをピンホールとパノラマ的特徴埋め込みに結びつけ,マルチスケールのプロトタイプ機能を生成し,教師なしドメイン適応のための相互原型適応(mpa)でそれらを調整する。
屋内のStanford2D3Dデータセットでは、私たちのTrans4PASSとMPAは、完全に監督された最先端技術に匹敵するパフォーマンスを維持しており、1400以上のラベル付きパノラマの必要性を減らしています。
屋外のDensePASSデータセットでは、最先端の14.39% mIoUを破り、新しいバーを56.38%とした。
コードはhttps://github.com/jamycheung/Trans4PASSで公開される。
関連論文リスト
- Open Panoramic Segmentation [34.46596562350091]
我々は,FoV制限されたピンホール画像をオープン語彙設定でトレーニングする,Open Panoramic (OPS) と呼ばれる新しいタスクを提案する。
また,DAN (Deformable Adapter Network) を用いた OOOPS モデルを提案し,パノラマセマンティックセマンティックセマンティクスの性能を大幅に向上させる。
他の最先端のオープンボキャブラリセマンティックセマンティクスアプローチを超越すると、3つのパノラマデータセットのパフォーマンスが著しく向上する。
論文 参考訳(メタデータ) (2024-07-02T22:00:32Z) - SGAT4PASS: Spherical Geometry-Aware Transformer for PAnoramic Semantic
Segmentation [53.5256153325136]
PAnoramic Semantic (PASS) は、超広視野の視点に基づく完全なシーン認識を提供する。
通常、2次元パノラマ画像入力を持つPASS法は、画像歪みの解消に重点を置いているが、元の360円のデータの3D特性を考慮していない。
Panoramic Semantic (SGAT4PASS) のための球面形状認識変換器を提案する。
論文 参考訳(メタデータ) (2023-06-06T04:49:51Z) - PanoGRF: Generalizable Spherical Radiance Fields for Wide-baseline
Panoramas [54.4948540627471]
広帯域パノラマのための一般化可能な球面放射場パノGRFを提案する。
パノGRFは、視線画像に基づいて訓練された一般化可能な放射場とは異なり、パノラマからパースペクティブへの変換から情報損失を回避する。
複数のパノラマデータセットの結果は、パノGRFが最先端の一般化可能なビュー合成法よりも著しく優れていることを示している。
論文 参考訳(メタデータ) (2023-06-02T13:35:07Z) - DeViT: Deformed Vision Transformers in Video Inpainting [59.73019717323264]
Deformed Patch-based Homography (DePtH)を導入して、パッチアライメントによる以前のトランスフォーマーを拡張した。
第2に、パッチワイズ機能マッチングを改善するために、Mask Pruning-based Patch Attention (MPPA)を導入する。
第3に、時空間トークンに対する正確な注意を得るために、時空間重み付け適応器(STA)モジュールを導入する。
論文 参考訳(メタデータ) (2022-09-28T08:57:14Z) - Behind Every Domain There is a Shift: Adapting Distortion-aware Vision Transformers for Panoramic Semantic Segmentation [73.48323921632506]
パノラマ的セマンティックセマンティックセグメンテーションは2つの重要な課題により未探索である。
まず、変形性パッチ埋め込み(DPE)と変形性(DMLPv2)モジュールを備えたパノラマセマンティックトランス4PASS+を改良したトランスフォーマーを提案する。
第2に、教師なしドメイン適応パノラマセグメンテーションのための擬似ラベル修正により、Mutual Prototypeal Adaptation(MPA)戦略を強化する。
第3に、Pinhole-to-Panoramic(Pin2Pan)適応とは別に、9,080パノラマ画像を用いた新しいデータセット(SynPASS)を作成します。
論文 参考訳(メタデータ) (2022-07-25T00:42:38Z) - Panoramic Panoptic Segmentation: Insights Into Surrounding Parsing for
Mobile Agents via Unsupervised Contrastive Learning [93.6645991946674]
我々はパノラマパノラマパノプティクスのセグメンテーションを最も総合的なシーン理解として紹介する。
完全な周囲の理解は、移動エージェントに最大限の情報を提供する。
本稿では,標準的なピンホール画像のモデルトレーニングを可能にし,学習した特徴を別のドメインに転送するフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-21T20:07:15Z) - Transfer beyond the Field of View: Dense Panoramic Semantic Segmentation
via Unsupervised Domain Adaptation [30.104947024614127]
パノラマ的セマンティックセグメンテーションのための教師なしドメイン適応のタスクを形式化する。
DensePASSはドメイン横断条件下でのパノラマセグメンテーションのための新しいデータセットである。
P2PDAはPinhole-to-Panoramicセマンティックセグメンテーションのための汎用フレームワークである。
論文 参考訳(メタデータ) (2021-10-21T11:22:05Z) - DensePASS: Dense Panoramic Semantic Segmentation via Unsupervised Domain
Adaptation with Attention-Augmented Context Exchange [32.29797061415896]
パノラマ的セマンティックセグメンテーションのための教師なしドメイン適応のタスクを形式化する。
パノラマ画像の異なるターゲット領域にピンホールカメラデータのソース領域からラベル付き例に基づいて訓練されたネットワークを配置する。
我々は、注目強化ドメイン適応モジュールの異なる変種に基づいて、ドメイン間パノラマセマンティックセマンティックセマンティックセマンティクスのための汎用フレームワークを構築した。
論文 参考訳(メタデータ) (2021-08-13T20:15:46Z) - Panoramic Panoptic Segmentation: Towards Complete Surrounding
Understanding via Unsupervised Contrastive Learning [97.37544023666833]
我々は,パノラマパオプティックセグメンテーションを最も総合的なシーン理解として導入する。
完全な周囲の理解は、エージェントに最大限の情報を提供する。
標準ピンホール画像のモデルトレーニングを可能にし、学習した機能を異なるドメインに転送するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-01T09:37:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。