論文の概要: Open Panoramic Segmentation
- arxiv url: http://arxiv.org/abs/2407.02685v1
- Date: Tue, 2 Jul 2024 22:00:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 18:04:33.737941
- Title: Open Panoramic Segmentation
- Title(参考訳): オープンパノラマセグメンテーション
- Authors: Junwei Zheng, Ruiping Liu, Yufan Chen, Kunyu Peng, Chengzhi Wu, Kailun Yang, Jiaming Zhang, Rainer Stiefelhagen,
- Abstract要約: 我々は、FoV制限されたピンホール画像をオープン語彙設定でトレーニングする、Open Panoramic (OPS)と呼ばれる新しいタスクを定義する。
また,DAN (Deformable Adapter Network) を用いた OOOPS モデルを提案し,パノラマセマンティックセマンティックセマンティクスの性能を大幅に向上させる。
ピンホール源領域からの歪みを考慮した空間モデリング機能をさらに強化するため、ランダム等角射影(RERP)と呼ばれる新しいデータ拡張手法を提案する。
- 参考スコア(独自算出の注目度): 34.46596562350091
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Panoramic images, capturing a 360{\deg} field of view (FoV), encompass omnidirectional spatial information crucial for scene understanding. However, it is not only costly to obtain training-sufficient dense-annotated panoramas but also application-restricted when training models in a close-vocabulary setting. To tackle this problem, in this work, we define a new task termed Open Panoramic Segmentation (OPS), where models are trained with FoV-restricted pinhole images in the source domain in an open-vocabulary setting while evaluated with FoV-open panoramic images in the target domain, enabling the zero-shot open panoramic semantic segmentation ability of models. Moreover, we propose a model named OOOPS with a Deformable Adapter Network (DAN), which significantly improves zero-shot panoramic semantic segmentation performance. To further enhance the distortion-aware modeling ability from the pinhole source domain, we propose a novel data augmentation method called Random Equirectangular Projection (RERP) which is specifically designed to address object deformations in advance. Surpassing other state-of-the-art open-vocabulary semantic segmentation approaches, a remarkable performance boost on three panoramic datasets, WildPASS, Stanford2D3D, and Matterport3D, proves the effectiveness of our proposed OOOPS model with RERP on the OPS task, especially +2.2% on outdoor WildPASS and +2.4% mIoU on indoor Stanford2D3D. The code will be available at https://junweizheng93.github.io/publications/OPS/OPS.html.
- Abstract(参考訳): パノラマ画像は、360{\deg}視野(FoV)を捉え、シーン理解に不可欠な全方向空間情報を包含する。
しかし、訓練に十分な高密度アノテートパノラマを得るだけでなく、近語彙で訓練する場合にも適用が制限される。
そこで本研究では,対象領域のFoV-オープンなパノラマ画像と評価しながら,ソースドメイン内のFoV制限されたピンホール画像を用いて,対象領域のFoV-オープンなパノラマ画像を用いて学習し,モデルのゼロショットオープンなパノラマセマンティックセマンティックセマンティックセマンティック機能を実現する,Open Panoramic Segmentation (OPS) というタスクを定義した。
さらに,非ショットパノラマセマンティックセマンティックセグメンテーション性能を大幅に向上させる,変形可能なアダプタネットワーク(DAN)を備えたOOOPSモデルを提案する。
ピンホール源領域からの歪み認識モデリング能力をさらに高めるために,物体の変形に先立って対処するRandom Equirectular Projection (RERP) と呼ばれる新しいデータ拡張手法を提案する。
3つのパノラマデータセット(WildPASS、Stanford2D3D、Matterport3D)に対する顕著なパフォーマンス向上である、最先端のオープン語彙セマンティックセマンティックセマンティクスアプローチを超越して、OPSタスクにおけるRERPを用いたOOOPSモデルの有効性、特に屋外のWildPASSでは+2.2%、屋内のStanford2D3Dでは+2.4%のmIoUが証明されている。
コードはhttps://junweizheng93.github.io/publications/OPS/OPS.htmlで入手できる。
関連論文リスト
- Learning 3D-Aware GANs from Unposed Images with Template Feature Field [33.32761749864555]
この研究は、未提示の画像から3D対応のGANを学習することを目的としている。
学習テンプレート特徴場(TeFF)を用いたトレーニング画像のオンザフライポーズ推定を提案する。
論文 参考訳(メタデータ) (2024-04-08T17:42:08Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - PointSeg: A Training-Free Paradigm for 3D Scene Segmentation via Foundation Models [51.24979014650188]
我々は、市販の視覚基盤モデルを利用して、3Dシーン認識タスクに対処する学習自由パラダイムであるPointSegを提案する。
PointSegは正確な3Dプロンプトを取得してフレーム間で対応するピクセルを調整することで、任意の3Dシーンを分割することができる。
ScanNet、ScanNet++、KITTI-360データセット上の14.1$%、12.3$%、12.6$%のmAPは、最先端のトレーニングフリーモデルを大きく上回っている。
論文 参考訳(メタデータ) (2024-03-11T03:28:20Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - PERF: Panoramic Neural Radiance Field from a Single Panorama [109.31072618058043]
PERFはパノラマ性神経放射場を1つのパノラマから訓練する新しいビュー合成フレームワークである。
本研究では,360度2Dシーンを3Dシーンに持ち上げるために,新しい共同RGBDインペイント法とプログレッシブ・インペイント・アンド・エラスティング法を提案する。
PERFは,パノラマから3D,テキストから3D,3Dシーンのスタイリングなど,現実世界のアプリケーションに広く利用することができる。
論文 参考訳(メタデータ) (2023-10-25T17:59:01Z) - Panoramic Panoptic Segmentation: Insights Into Surrounding Parsing for
Mobile Agents via Unsupervised Contrastive Learning [93.6645991946674]
我々はパノラマパノラマパノプティクスのセグメンテーションを最も総合的なシーン理解として紹介する。
完全な周囲の理解は、移動エージェントに最大限の情報を提供する。
本稿では,標準的なピンホール画像のモデルトレーニングを可能にし,学習した特徴を別のドメインに転送するフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-21T20:07:15Z) - Bending Reality: Distortion-aware Transformers for Adapting to Panoramic
Semantic Segmentation [26.09267582056609]
大量の高価なピクセル単位のアノテーションは、堅牢なパノラマセグメンテーションモデルの成功に不可欠である。
360度パノラマにおける歪みと画像-特徴分布は、アノテーションに富んだピンホールドメインからの転写を阻害する。
変形性パッチ埋め込み(DPE)および変形性変形性(DMLP)コンポーネントにおける物体変形とパノラマ画像歪みを学習する。
最後に、マルチスケールのプロトタイプ機能を生成することにより、ピンホールとパノラマの特徴埋め込みで共有セマンティクスを結合する。
論文 参考訳(メタデータ) (2022-03-02T23:00:32Z) - Capturing Omni-Range Context for Omnidirectional Segmentation [29.738065412097598]
本稿では,fovと画像領域間の構造分布のギャップを埋めるために,並列注意ネットワーク(ecanets)を導入する。
ラベル付きデータとラベルなしデータの両方を利用して、マルチソースとオムニバイザード学習を活用してモデルトレーニングをアップグレードします。
我々の新しいモデル、トレーニング規則およびマルチソース予測融合は、新しい最先端結果に性能(mIoU)を上昇させる。
論文 参考訳(メタデータ) (2021-03-09T19:46:09Z) - Panoramic Panoptic Segmentation: Towards Complete Surrounding
Understanding via Unsupervised Contrastive Learning [97.37544023666833]
我々は,パノラマパオプティックセグメンテーションを最も総合的なシーン理解として導入する。
完全な周囲の理解は、エージェントに最大限の情報を提供する。
標準ピンホール画像のモデルトレーニングを可能にし、学習した機能を異なるドメインに転送するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-01T09:37:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。