論文の概要: Capturing Omni-Range Context for Omnidirectional Segmentation
- arxiv url: http://arxiv.org/abs/2103.05687v1
- Date: Tue, 9 Mar 2021 19:46:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-11 14:40:39.401554
- Title: Capturing Omni-Range Context for Omnidirectional Segmentation
- Title(参考訳): 一方向セグメンテーションのためのOmni-Rangeコンテキストのキャプチャ
- Authors: Kailun Yang, Jiaming Zhang, Simon Rei{\ss}, Xinxin Hu, Rainer
Stiefelhagen
- Abstract要約: 本稿では,fovと画像領域間の構造分布のギャップを埋めるために,並列注意ネットワーク(ecanets)を導入する。
ラベル付きデータとラベルなしデータの両方を利用して、マルチソースとオムニバイザード学習を活用してモデルトレーニングをアップグレードします。
我々の新しいモデル、トレーニング規則およびマルチソース予測融合は、新しい最先端結果に性能(mIoU)を上昇させる。
- 参考スコア(独自算出の注目度): 29.738065412097598
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolutional Networks (ConvNets) excel at semantic segmentation and have
become a vital component for perception in autonomous driving. Enabling an
all-encompassing view of street-scenes, omnidirectional cameras present
themselves as a perfect fit in such systems. Most segmentation models for
parsing urban environments operate on common, narrow Field of View (FoV)
images. Transferring these models from the domain they were designed for to
360-degree perception, their performance drops dramatically, e.g., by an
absolute 30.0% (mIoU) on established test-beds. To bridge the gap in terms of
FoV and structural distribution between the imaging domains, we introduce
Efficient Concurrent Attention Networks (ECANets), directly capturing the
inherent long-range dependencies in omnidirectional imagery. In addition to the
learned attention-based contextual priors that can stretch across 360-degree
images, we upgrade model training by leveraging multi-source and
omni-supervised learning, taking advantage of both: Densely labeled and
unlabeled data originating from multiple datasets. To foster progress in
panoramic image segmentation, we put forward and extensively evaluate models on
Wild PAnoramic Semantic Segmentation (WildPASS), a dataset designed to capture
diverse scenes from all around the globe. Our novel model, training regimen and
multi-source prediction fusion elevate the performance (mIoU) to new
state-of-the-art results on the public PASS (60.2%) and the fresh WildPASS
(69.0%) benchmarks.
- Abstract(参考訳): Convolutional Networks(ConvNets)はセマンティックセグメンテーションに優れ、自動運転における認識に不可欠なコンポーネントとなっています。
ストリートシーンのオールエンパッシブビューを実現した全方位カメラは、そのようなシステムに完璧にフィットします。
都市環境解析のためのほとんどのセグメンテーションモデルは、共通して狭い視野(FoV)画像で機能する。
これらのモデルを設計したドメインから360度知覚に移行すると、既存のテストベッド上での絶対30.0%(mIoU)のパフォーマンスが劇的に低下する。
画像領域間のFoVと構造分布のギャップを埋めるために,全方向画像の固有長距離依存性を直接キャプチャする,効率的なコンカレントアテンションネットワーク(ECANets)を導入する。
360度イメージにまたがる学習された注意に基づくコンテキスト優先に加えて、マルチソースと全教師付き学習を活用することで、モデルのトレーニングをアップグレードします。
パノラマ画像のセグメンテーションの進歩を促進するために、世界中の多様なシーンをキャプチャするデータセットであるWildPASS(Wild Panoramic Semantic Segmentation)のモデルを推進し、広く評価します。
我々の新しいモデル、トレーニングレギュレン、マルチソース予測融合は、パブリックPASS (60.2%) と新しいWildPASS (69.0%) ベンチマークにおける新しい最先端結果に性能(mIoU)を上昇させる。
関連論文リスト
- Optimized Unet with Attention Mechanism for Multi-Scale Semantic Segmentation [8.443350618722564]
本稿では,注目機構と組み合わさった改良されたUnetモデルを提案する。
チャネルアテンションと空間アテンションモジュールを導入し、重要な特徴にフォーカスするモデルの能力を強化する。
改良されたモデルは、mIoUとピクセル精度(PA)でよく機能し、それぞれ76.5%と95.3%に達した。
論文 参考訳(メタデータ) (2025-02-06T06:51:23Z) - Open Panoramic Segmentation [34.46596562350091]
我々は,FoV制限されたピンホール画像をオープン語彙設定でトレーニングする,Open Panoramic (OPS) と呼ばれる新しいタスクを提案する。
また,DAN (Deformable Adapter Network) を用いた OOOPS モデルを提案し,パノラマセマンティックセマンティックセマンティクスの性能を大幅に向上させる。
他の最先端のオープンボキャブラリセマンティックセマンティクスアプローチを超越すると、3つのパノラマデータセットのパフォーマンスが著しく向上する。
論文 参考訳(メタデータ) (2024-07-02T22:00:32Z) - 360VOTS: Visual Object Tracking and Segmentation in Omnidirectional Videos [16.372814014632944]
我々は全方向ビデオオブジェクトセグメンテーション(360VOS)と呼ばれる新しいコンポーネントを組み込んだ包括的なデータセットとベンチマークを提案する。
360VOSデータセットは、高密度のピクセルワイドマスクを伴い、290のシーケンスを含み、幅広いターゲットカテゴリをカバーする。
我々は最先端のアプローチをベンチマークし、提案した360度トラッキングフレームワークとトレーニングデータセットの有効性を実証する。
論文 参考訳(メタデータ) (2024-04-22T07:54:53Z) - MRGAN360: Multi-stage Recurrent Generative Adversarial Network for 360
Degree Image Saliency Prediction [10.541086214760497]
MRGAN360 と呼ばれる ODI のための多段階連続生成対向ネットワークを提案する。
各段階で、予測モデルは、元の画像と前のステージの出力を入力として、より正確な唾液マップを出力する。
相関関係をモデル化するために、隣接した予測段階間で繰り返しニューラルネットワークを用い、各段階の終端における判別器を利用して出力唾液マップを監督する。
論文 参考訳(メタデータ) (2023-03-15T11:15:03Z) - Rethinking Range View Representation for LiDAR Segmentation [66.73116059734788]
「多対一」マッピング、意味的不整合、形状変形は、射程射影からの効果的な学習に対する障害となる可能性がある。
RangeFormerは、ネットワークアーキテクチャ、データ拡張、後処理を含む新しい設計を含む、フルサイクルのフレームワークである。
比較対象のLiDARセマンティックスとパノプティックスセグメンテーションのベンチマークにおいて,初めてレンジビュー法が点,ボクセル,マルチビューフュージョンを越えられることを示す。
論文 参考訳(メタデータ) (2023-03-09T16:13:27Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。
一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。
MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文 参考訳(メタデータ) (2021-12-27T16:16:35Z) - Multi-dataset Pretraining: A Unified Model for Semantic Segmentation [97.61605021985062]
我々は、異なるデータセットの断片化アノテーションを最大限に活用するために、マルチデータセット事前訓練と呼ばれる統合フレームワークを提案する。
これは、複数のデータセットに対して提案されたピクセルからプロトタイプへのコントラスト損失を通じてネットワークを事前トレーニングすることで実現される。
異なるデータセットからの画像とクラス間の関係をより良くモデル化するために、クロスデータセットの混合によりピクセルレベルの埋め込みを拡張する。
論文 参考訳(メタデータ) (2021-06-08T06:13:11Z) - Panoramic Panoptic Segmentation: Towards Complete Surrounding
Understanding via Unsupervised Contrastive Learning [97.37544023666833]
我々は,パノラマパオプティックセグメンテーションを最も総合的なシーン理解として導入する。
完全な周囲の理解は、エージェントに最大限の情報を提供する。
標準ピンホール画像のモデルトレーニングを可能にし、学習した機能を異なるドメインに転送するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-01T09:37:27Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。