論文の概要: Vanishing-Point-Guided Video Semantic Segmentation of Driving Scenes
- arxiv url: http://arxiv.org/abs/2401.15261v2
- Date: Fri, 26 Apr 2024 03:12:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-29 17:28:28.602552
- Title: Vanishing-Point-Guided Video Semantic Segmentation of Driving Scenes
- Title(参考訳): 運転シーンの映像セマンティックセマンティックセマンティックセグメンテーション
- Authors: Diandian Guo, Deng-Ping Fan, Tongyu Lu, Christos Sakaridis, Luc Van Gool,
- Abstract要約: 私たちは、より効果的なセグメンテーションのために消滅点(VP)を最初に利用しました。
当社の新しいVSS用ネットワークであるVPSegには,この静的および動的VPプリエントを正確に利用する2つのモジュールが組み込まれています。
- 参考スコア(独自算出の注目度): 70.08318779492944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The estimation of implicit cross-frame correspondences and the high computational cost have long been major challenges in video semantic segmentation (VSS) for driving scenes. Prior works utilize keyframes, feature propagation, or cross-frame attention to address these issues. By contrast, we are the first to harness vanishing point (VP) priors for more effective segmentation. Intuitively, objects near VPs (i.e., away from the vehicle) are less discernible. Moreover, they tend to move radially away from the VP over time in the usual case of a forward-facing camera, a straight road, and linear forward motion of the vehicle. Our novel, efficient network for VSS, named VPSeg, incorporates two modules that utilize exactly this pair of static and dynamic VP priors: sparse-to-dense feature mining (DenseVP) and VP-guided motion fusion (MotionVP). MotionVP employs VP-guided motion estimation to establish explicit correspondences across frames and help attend to the most relevant features from neighboring frames, while DenseVP enhances weak dynamic features in distant regions around VPs. These modules operate within a context-detail framework, which separates contextual features from high-resolution local features at different input resolutions to reduce computational costs. Contextual and local features are integrated through contextualized motion attention (CMA) for the final prediction. Extensive experiments on two popular driving segmentation benchmarks, Cityscapes and ACDC, demonstrate that VPSeg outperforms previous SOTA methods, with only modest computational overhead.
- Abstract(参考訳): 暗黙的なクロスフレーム対応の推定と高い計算コストは、駆動シーンにおけるビデオセマンティックセグメンテーション(VSS)において長年大きな課題であった。
以前の作業では、これらの問題に対処するために、キーフレーム、フィーチャープロパゲーション、あるいはクロスフレームアテンションが使われていました。
対照的に、我々はより効果的なセグメンテーションのために消滅点(VP)を最初に活用する。
直感的には、VP(つまり車から離れたもの)の近くの物体は識別できない。
さらに、前方カメラ、直線道路、車両の直線前方運動の通常の場合、彼らはVPから時間とともに放射的に遠ざかる傾向にある。
当社の新規で効率的なVSSネットワークであるVPSegは,この2つの静的および動的VPプリエント(Sparse-to-dense feature mining, DenseVP)とVP-guided Motion fusion(MotionVP)を正確に利用する2つのモジュールを組み込んでいる。
MotionVPはVP-guided Motion Estimationを使用し、フレーム間の明示的な対応を確立し、隣接するフレームから最も関連性の高い特徴に対応するのに役立ち、DenseVPはVP周辺の離れた領域の弱いダイナミックな特徴を強化する。
これらのモジュールは、コンテクスト・ディテール・フレームワーク内で動作し、コンテクスト的特徴を異なる入力解像度で高解像度なローカル特徴から分離し、計算コストを削減する。
文脈的特徴と局所的特徴は、最終予測のために文脈的動き注意(CMA)を通して統合される。
Cityscapes と ACDC の2つの一般的な運転セグメンテーションベンチマークに関する大規模な実験では、VPSeg が従来の SOTA 手法より優れており、計算オーバーヘッドはわずかである。
関連論文リスト
- MCDS-VSS: Moving Camera Dynamic Scene Video Semantic Segmentation by Filtering with Self-Supervised Geometry and Motion [17.50161162624179]
自動運転車は意思決定に信頼性のあるセマンティックな環境認識に依存している。
本稿では,カメラのシーン形状とエゴモーションを自己教師付きで学習する構造化フィルタモデルMCDS-VSSを提案する。
我々のモデルは自動車シーンを、シーン幾何学、エゴモーション、オブジェクトモーションなどの複数の解釈可能な表現に解析する。
論文 参考訳(メタデータ) (2024-05-30T10:33:14Z) - Betrayed by Attention: A Simple yet Effective Approach for Self-supervised Video Object Segmentation [76.68301884987348]
自己教師型ビデオオブジェクトセグメンテーション(VOS)のための簡易かつ効果的なアプローチを提案する。
我々の重要な洞察は、DINO-pretrained Transformerに存在する構造的依存関係を利用して、ビデオ内の堅牢な時間分割対応を確立することである。
提案手法は,複数の教師なしVOSベンチマークにまたがる最先端性能を実証し,複雑な実世界のマルチオブジェクトビデオセグメンテーションタスクに優れることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:47:17Z) - Co-attention Propagation Network for Zero-Shot Video Object Segmentation [91.71692262860323]
ゼロショットオブジェクトセグメンテーション(ZS-VOS)は、これらのオブジェクトを事前に知ることなく、ビデオシーケンス内のオブジェクトをセグメンテーションすることを目的としている。
既存のZS-VOSメソッドは、しばしば前景と背景を区別したり、複雑なシナリオで前景を追跡するのに苦労する。
本稿では,オブジェクトの追跡とセグメンテーションが可能なエンコーダデコーダに基づく階層的コアテンション伝搬ネットワーク(HCPN)を提案する。
論文 参考訳(メタデータ) (2023-04-08T04:45:48Z) - Monocular BEV Perception of Road Scenes via Front-to-Top View Projection [57.19891435386843]
本稿では,鳥の目視で道路配置と車両占有率によって形成された局所地図を再構築する新しい枠組みを提案する。
我々のモデルは1つのGPU上で25FPSで動作し、リアルタイムパノラマHDマップの再構築に有効である。
論文 参考訳(メタデータ) (2022-11-15T13:52:41Z) - CoBEVT: Cooperative Bird's Eye View Semantic Segmentation with Sparse
Transformers [36.838065731893735]
CoBEVTは、BEVマップ予測を協調的に生成できる最初の汎用マルチエージェント認識フレームワークである。
CoBEVTは協調的BEVセマンティックセグメンテーションのための最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-05T17:59:28Z) - NEAT: Neural Attention Fields for End-to-End Autonomous Driving [59.60483620730437]
本稿では、模倣学習モデルの効率的な推論を可能にする新しい表現であるNEAT(NEural Attention Field)を提案する。
NEATは、Bird's Eye View (BEV) シーン座標の位置をウェイポイントとセマンティクスにマッピングする連続関数である。
有害な環境条件や挑戦的なシナリオを含む新たな評価環境では、NEATはいくつかの強いベースラインを上回り、特権のあるCARLA専門家と同等の運転スコアを達成している。
論文 参考訳(メタデータ) (2021-09-09T17:55:28Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z) - SSTVOS: Sparse Spatiotemporal Transformers for Video Object Segmentation [24.884078497381633]
VOS(Transformer-based approach to video object segmentation)について紹介する。
注意に基づくアプローチによって、モデルが複数のフレームの歴史的特徴を乗り越えることを学ぶことができます。
提案手法は,YouTube-VOS と DAVIS 2017 において,最先端技術と比較してスケーラビリティとロバスト性の向上を図った。
論文 参考訳(メタデータ) (2021-01-21T20:06:12Z) - D-VPnet: A Network for Real-time Dominant Vanishing Point Detection in
Natural Scenes [3.8170259685864165]
バリシングポイント(VP)は、オブジェクトを2D写真から3D空間にマッピングするための有用なヒントを提供する。
自然界における支配的なVPを検出するために,新しい畳み込みニューラルネットワーク(CNN)を提案する。
論文 参考訳(メタデータ) (2020-06-09T17:12:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。