論文の概要: A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented,
Temporal and Depth-aware design
- arxiv url: http://arxiv.org/abs/2303.04315v1
- Date: Wed, 8 Mar 2023 01:29:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-09 15:27:09.721006
- Title: A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented,
Temporal and Depth-aware design
- Title(参考訳): 深部セマンティックセグメンテーション : 効率指向, 時間, 深さを考慮した設計
- Authors: Felipe Manfio Barbosa, Fernando Santos Os\'orio
- Abstract要約: 我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。
私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
- 参考スコア(独自算出の注目度): 77.34726150561087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic image and video segmentation stand among the most important tasks in
computer vision nowadays, since they provide a complete and meaningful
representation of the environment by means of a dense classification of the
pixels in a given scene. Recently, Deep Learning, and more precisely
Convolutional Neural Networks, have boosted semantic segmentation to a new
level in terms of performance and generalization capabilities. However,
designing Deep Semantic Segmentation models is a complex task, as it may
involve application-dependent aspects. Particularly, when considering
autonomous driving applications, the robustness-efficiency trade-off, as well
as intrinsic limitations - computational/memory bounds and data-scarcity - and
constraints - real-time inference - should be taken into consideration. In this
respect, the use of additional data modalities, such as depth perception for
reasoning on the geometry of a scene, and temporal cues from videos to explore
redundancy and consistency, are promising directions yet not explored to their
full potential in the literature. In this paper, we conduct a survey on the
most relevant and recent advances in Deep Semantic Segmentation in the context
of vision for autonomous vehicles, from three different perspectives:
efficiency-oriented model development for real-time operation, RGB-Depth data
integration (RGB-D semantic segmentation), and the use of temporal information
from videos in temporally-aware models. Our main objective is to provide a
comprehensive discussion on the main methods, advantages, limitations, results
and challenges faced from each perspective, so that the reader can not only get
started, but also be up to date in respect to recent advances in this exciting
and challenging research field.
- Abstract(参考訳): セマンティック画像とビデオセグメンテーションは、あるシーンにおけるピクセルの密度の高い分類によって、環境の完全かつ意味のある表現を提供するため、コンピュータビジョンにおける最も重要なタスクの1つである。
近年、Deep Learning(より正確には畳み込みニューラルネットワーク)は、セマンティックセグメンテーションをパフォーマンスと一般化能力の面で新たなレベルに引き上げている。
しかし、深い意味のセグメンテーションモデルを設計するのは複雑なタスクである。
特に、自動運転アプリケーションを考える場合、ロバストネス効率のトレードオフと、計算/メモリ境界とデータscarcity、そして制約(リアルタイム推論)を考慮する必要がある。
この点において、シーンの幾何学的推論のための深度知覚や、冗長性と一貫性を探求するビデオからの時間的手がかりなどの追加データモダリティの使用は、文学におけるその潜在能力を十分に探求していない有望な方向である。
本稿では,リアルタイム運転のための効率指向モデル開発,RGB-Dセマンティックセグメンテーション(RGB-Dセマンティックセグメンテーション),時間的認識モデルにおけるビデオからの時間的情報の利用,という3つの視点から,自動車のビジョンの文脈におけるDeep Semantic Segmentationの最も重要かつ最近の進歩について調査する。
我々の主な目的は、各視点で直面する主要な方法、利点、限界、結果、課題に関する包括的な議論を提供することであり、読者が始めるだけでなく、このエキサイティングで挑戦的な研究分野における最近の進歩についても最新のものとなるようにすることである。
関連論文リスト
- Appearance-based Refinement for Object-Centric Motion Segmentation [95.80420062679104]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では, 正確な流量予測マスクを模範として, 簡単な選択機構を用いる。
パフォーマンスは、DAVIS、YouTubeVOS、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Semi-Weakly Supervised Object Kinematic Motion Prediction [56.282759127180306]
3Dオブジェクトが与えられた場合、運動予測は移動部と対応する運動パラメータを識別することを目的としている。
階層的部分分割と移動部パラメータのマップを学習するグラフニューラルネットワークを提案する。
ネットワーク予測は、擬似ラベル付き移動情報を持つ大規模な3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2023-03-31T02:37:36Z) - On Efficient Real-Time Semantic Segmentation: A Survey [12.404169549562523]
我々は、低メモリの組み込みシステムにデプロイ可能な、よりコンパクトで効率的なモデルで、このミスアライメントに対処することを目的とした作業について検討する。
我々は,一貫したハードウェアおよびソフトウェア構成下で,議論されたモデルの推論速度を評価する。
実験結果から,リソース制約のあるハードウェア上でのリアルタイム性能を実証し,レイテンシと精度の相反するトレードオフを考察した。
論文 参考訳(メタデータ) (2022-06-17T08:00:27Z) - Beyond RGB: Scene-Property Synthesis with Neural Radiance Fields [32.200557554874784]
本稿では,暗黙の3次元表現とニューラルレンダリングの最近の進歩を活用し,シーン理解への新たなアプローチを提案する。
ニューラル・レージアンス・フィールド(NeRF)の大成功を生かして,ネRFを用いたシーン・プロパリティ・シンセサイザーを導入する。
セマンティックセグメンテーション,表面正規推定,リシェーディング,キーポイント検出,エッジ検出など,統合されたフレームワーク下でのさまざまなシーン理解タスクへの対処を容易にする。
論文 参考訳(メタデータ) (2022-06-09T17:59:50Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - Superevents: Towards Native Semantic Segmentation for Event-based
Cameras [13.099264910430986]
最も成功したコンピュータビジョンモデルは、gaborフィルタ応答のような低レベルの機能を下流の視覚タスクの中間または中間レベルの複雑さのよりリッチな表現に変換する。
本論文では,全畳み込みネットワークに供給されるイベントストリーム表現を得るために,生涯拡張を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2021-05-13T05:49:41Z) - Learning Long-term Visual Dynamics with Region Proposal Interaction
Networks [75.06423516419862]
オブジェクト間およびオブジェクト環境間の相互作用を長距離にわたってキャプチャするオブジェクト表現を構築します。
単純だが効果的なオブジェクト表現のおかげで、我々の手法は先行手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2020-08-05T17:48:00Z) - SideInfNet: A Deep Neural Network for Semi-Automatic Semantic
Segmentation with Side Information [83.03179580646324]
本稿では,新たなディープニューラルネットワークアーキテクチャであるSideInfNetを提案する。
画像から学習した機能とユーザアノテーションから抽出したサイド情報を統合する。
提案手法を評価するために,提案したネットワークを3つのセマンティックセグメンテーションタスクに適用し,ベンチマークデータセットに対する広範な実験を行った。
論文 参考訳(メタデータ) (2020-02-07T06:10:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。