論文の概要: SGAT4PASS: Spherical Geometry-Aware Transformer for PAnoramic Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2306.03403v2
- Date: Tue, 12 Mar 2024 12:41:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 02:16:57.334016
- Title: SGAT4PASS: Spherical Geometry-Aware Transformer for PAnoramic Semantic
Segmentation
- Title(参考訳): SGAT4PASS: Panoramic Semantic Segmentationのための球形状認識変換器
- Authors: Xuewei Li, Tao Wu, Zhongang Qi, Gaoang Wang, Ying Shan, Xi Li
- Abstract要約: PAnoramic Semantic (PASS) は、超広視野の視点に基づく完全なシーン認識を提供する。
通常、2次元パノラマ画像入力を持つPASS法は、画像歪みの解消に重点を置いているが、元の360円のデータの3D特性を考慮していない。
Panoramic Semantic (SGAT4PASS) のための球面形状認識変換器を提案する。
- 参考スコア(独自算出の注目度): 53.5256153325136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As an important and challenging problem in computer vision, PAnoramic
Semantic Segmentation (PASS) gives complete scene perception based on an
ultra-wide angle of view. Usually, prevalent PASS methods with 2D panoramic
image input focus on solving image distortions but lack consideration of the 3D
properties of original $360^{\circ}$ data. Therefore, their performance will
drop a lot when inputting panoramic images with the 3D disturbance. To be more
robust to 3D disturbance, we propose our Spherical Geometry-Aware Transformer
for PAnoramic Semantic Segmentation (SGAT4PASS), considering 3D spherical
geometry knowledge. Specifically, a spherical geometry-aware framework is
proposed for PASS. It includes three modules, i.e., spherical geometry-aware
image projection, spherical deformable patch embedding, and a panorama-aware
loss, which takes input images with 3D disturbance into account, adds a
spherical geometry-aware constraint on the existing deformable patch embedding,
and indicates the pixel density of original $360^{\circ}$ data, respectively.
Experimental results on Stanford2D3D Panoramic datasets show that SGAT4PASS
significantly improves performance and robustness, with approximately a 2%
increase in mIoU, and when small 3D disturbances occur in the data, the
stability of our performance is improved by an order of magnitude. Our code and
supplementary material are available at
https://github.com/TencentARC/SGAT4PASS.
- Abstract(参考訳): PAnoramic Semantic Segmentation (PASS)は、コンピュータビジョンにおける重要かつ困難な問題として、超広視野の視点に基づく完全なシーン認識を提供する。
通常、2次元パノラマ画像入力を持つPASS法は、画像歪みを解くことに重点を置いているが、元の360^{\circ}$データの3D特性を考慮していない。
したがって、パノラマ画像の3Dインプットでは、パフォーマンスが大幅に低下する。
本研究では,3次元球面形状の知識を考慮したPanoramic Semantic Segmentation (SGAT4PASS) のための球面形状認識変換器を提案する。
具体的には,PASSに対して球面形状認識フレームワークを提案する。
球形形状対応画像投影、球状変形可能なパッチ埋め込み、パノラマ認識損失という3つのモジュールを含み、3次元乱れを考慮した入力イメージを考慮に入れ、既存の変形可能なパッチ埋め込みに球形幾何学対応の制約を加え、それぞれ360円円のデータのピクセル密度を示す。
スタンフォード2D3Dパノラマデータセットの実験結果から,SGAT4PASSはmIoUの約2%増加とともに性能とロバスト性を大幅に向上し,データに小さな3D障害が発生した場合,その安定性は桁違いに向上することが示された。
コードと補足資料はhttps://github.com/TencentARC/SGAT4PASS.comで公開されています。
関連論文リスト
- SpatialTracker: Tracking Any 2D Pixels in 3D Space [71.58016288648447]
本稿では,画像投影による問題点を軽減するために,3次元空間における点軌道の推定を提案する。
この手法はSpatialTrackerと呼ばれ、2Dピクセルをモノクロ深度推定器を用いて3Dにリフトする。
3Dでのトラッキングにより、ピクセルを異なる剛性部分にクラスタ化する剛性埋め込みを同時に学習しながら、ARAP(as-rigid-as-possible)制約を活用することができます。
論文 参考訳(メタデータ) (2024-04-05T17:59:25Z) - Text2Control3D: Controllable 3D Avatar Generation in Neural Radiance
Fields using Geometry-Guided Text-to-Image Diffusion Model [39.64952340472541]
本稿では,表情を制御可能な制御可能なテキスト・ツー・3Dアバター生成手法を提案する。
我々の主な戦略は、制御された視点認識画像のセットに最適化されたニューラルラジアンスフィールド(NeRF)における3Dアバターを構築することである。
実験結果を実証し,本手法の有効性について考察する。
論文 参考訳(メタデータ) (2023-09-07T08:14:46Z) - Points-to-3D: Bridging the Gap between Sparse Points and
Shape-Controllable Text-to-3D Generation [16.232803881159022]
本稿では,スパースで自由な3Dポイントとリアルな形状制御可能な3D生成とのギャップを埋めるために,Points-to-3Dのフレキシブルなフレームワークを提案する。
Points-to-3Dの基本的な考え方は、テキストから3D生成を導くために制御可能なスパース3Dポイントを導入することである。
論文 参考訳(メタデータ) (2023-07-26T02:16:55Z) - Magic123: One Image to High-Quality 3D Object Generation Using Both 2D
and 3D Diffusion Priors [104.79392615848109]
Magic123は、高品質でテクスチャ化された3Dメッシュのための、2段階の粗大なアプローチである。
最初の段階では、粗い幾何学を生成するために、神経放射場を最適化する。
第2段階では、視覚的に魅力的なテクスチャを持つ高分解能メッシュを生成するために、メモリ効率のよい微分可能なメッシュ表現を採用する。
論文 参考訳(メタデータ) (2023-06-30T17:59:08Z) - Shape-Net: Room Layout Estimation from Panoramic Images Robust to
Occlusion using Knowledge Distillation with 3D Shapes as Additional Inputs [0.0]
本稿では,画像と3次元情報の両方を訓練したモデルから,画像のみを入力とするモデルまで,知識を抽出する手法を提案する。
提案モデルはShape-Netと呼ばれ,ベンチマークデータセット上でのSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2023-04-25T07:45:43Z) - Beyond 3DMM: Learning to Capture High-fidelity 3D Face Shape [77.95154911528365]
3Dモーフィブルモデル(3DMM)の適合性は、その強力な3D先行性のため、顔解析に広く有用である。
以前に再建された3次元顔は、微細な形状が失われるため、視差の低下に悩まされていた。
本論文は, パーソナライズされた形状が対応する人物と同一に見えるよう, パーソナライズされた形状を捉えるための完全な解を提案する。
論文 参考訳(メタデータ) (2022-04-09T03:46:18Z) - Unsupervised Learning of Fine Structure Generation for 3D Point Clouds
by 2D Projection Matching [66.98712589559028]
微細な構造を持つ3次元点雲生成のための教師なしアプローチを提案する。
本手法は2次元シルエット画像から異なる解像度で微細な3次元構造を復元することができる。
論文 参考訳(メタデータ) (2021-08-08T22:15:31Z) - Learning geometry-image representation for 3D point cloud generation [5.3485743892868545]
本稿では、3次元点雲生成問題を2次元幾何画像生成問題に変換するための新しい幾何画像ベースジェネレータ(GIG)を提案する。
剛性および非剛性な3次元オブジェクトデータセットの実験により,本手法の有望な性能を実証した。
論文 参考訳(メタデータ) (2020-11-29T05:21:10Z) - Hard Example Generation by Texture Synthesis for Cross-domain Shape
Similarity Learning [97.56893524594703]
画像に基づく3次元形状検索(IBSR)は、与えられた2次元画像の対応する3次元形状を、大きな3次元形状データベースから見つけることを目的としている。
いくつかの適応技法によるメートル法学習は、類似性学習を形作るための自然な解決策のようです。
テクスチャ合成を応用した幾何中心の多視点メトリック学習フレームワークを開発した。
論文 参考訳(メタデータ) (2020-10-23T08:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。