論文の概要: A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented,
Temporal and Depth-aware design
- arxiv url: http://arxiv.org/abs/2303.04315v1
- Date: Wed, 8 Mar 2023 01:29:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-09 15:27:09.721006
- Title: A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented,
Temporal and Depth-aware design
- Title(参考訳): 深部セマンティックセグメンテーション : 効率指向, 時間, 深さを考慮した設計
- Authors: Felipe Manfio Barbosa, Fernando Santos Os\'orio
- Abstract要約: 我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。
私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
- 参考スコア(独自算出の注目度): 77.34726150561087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic image and video segmentation stand among the most important tasks in
computer vision nowadays, since they provide a complete and meaningful
representation of the environment by means of a dense classification of the
pixels in a given scene. Recently, Deep Learning, and more precisely
Convolutional Neural Networks, have boosted semantic segmentation to a new
level in terms of performance and generalization capabilities. However,
designing Deep Semantic Segmentation models is a complex task, as it may
involve application-dependent aspects. Particularly, when considering
autonomous driving applications, the robustness-efficiency trade-off, as well
as intrinsic limitations - computational/memory bounds and data-scarcity - and
constraints - real-time inference - should be taken into consideration. In this
respect, the use of additional data modalities, such as depth perception for
reasoning on the geometry of a scene, and temporal cues from videos to explore
redundancy and consistency, are promising directions yet not explored to their
full potential in the literature. In this paper, we conduct a survey on the
most relevant and recent advances in Deep Semantic Segmentation in the context
of vision for autonomous vehicles, from three different perspectives:
efficiency-oriented model development for real-time operation, RGB-Depth data
integration (RGB-D semantic segmentation), and the use of temporal information
from videos in temporally-aware models. Our main objective is to provide a
comprehensive discussion on the main methods, advantages, limitations, results
and challenges faced from each perspective, so that the reader can not only get
started, but also be up to date in respect to recent advances in this exciting
and challenging research field.
- Abstract(参考訳): セマンティック画像とビデオセグメンテーションは、あるシーンにおけるピクセルの密度の高い分類によって、環境の完全かつ意味のある表現を提供するため、コンピュータビジョンにおける最も重要なタスクの1つである。
近年、Deep Learning(より正確には畳み込みニューラルネットワーク)は、セマンティックセグメンテーションをパフォーマンスと一般化能力の面で新たなレベルに引き上げている。
しかし、深い意味のセグメンテーションモデルを設計するのは複雑なタスクである。
特に、自動運転アプリケーションを考える場合、ロバストネス効率のトレードオフと、計算/メモリ境界とデータscarcity、そして制約(リアルタイム推論)を考慮する必要がある。
この点において、シーンの幾何学的推論のための深度知覚や、冗長性と一貫性を探求するビデオからの時間的手がかりなどの追加データモダリティの使用は、文学におけるその潜在能力を十分に探求していない有望な方向である。
本稿では,リアルタイム運転のための効率指向モデル開発,RGB-Dセマンティックセグメンテーション(RGB-Dセマンティックセグメンテーション),時間的認識モデルにおけるビデオからの時間的情報の利用,という3つの視点から,自動車のビジョンの文脈におけるDeep Semantic Segmentationの最も重要かつ最近の進歩について調査する。
我々の主な目的は、各視点で直面する主要な方法、利点、限界、結果、課題に関する包括的な議論を提供することであり、読者が始めるだけでなく、このエキサイティングで挑戦的な研究分野における最近の進歩についても最新のものとなるようにすることである。
関連論文リスト
- Deep Learning-Based 3D Instance and Semantic Segmentation: A Review [0.0]
3Dセグメンテーションは、かなり冗長性があり、サンプル密度が変動し、組織が不足しているため、ポイントクラウドデータでは困難である。
ディープラーニングは、一般的なAI手法として、2次元視覚領域のスペクトルにうまく使われてきた。
本研究では3Dインスタンスとセマンティックセグメンテーションに提示された多くの戦略について検討する。
論文 参考訳(メタデータ) (2024-06-19T07:56:14Z) - Frequency-based Matcher for Long-tailed Semantic Segmentation [22.199174076366003]
我々は、比較的未探索なタスク設定、長い尾のセマンティックセマンティックセグメンテーション(LTSS)に焦点を当てる。
本稿では,セマンティックセグメンテーション手法と長鎖解の性能を示すために,二値評価システムを提案し,LTSSベンチマークを構築した。
また,1対1のマッチングによって過剰な圧縮問題を解決する周波数ベースのマーカであるLTSSを改善するトランスフォーマーベースのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-06T09:57:56Z) - Deep Learning-Based Object Pose Estimation: A Comprehensive Survey [73.74933379151419]
ディープラーニングに基づくオブジェクトポーズ推定の最近の進歩について論じる。
また、複数の入力データモダリティ、出力ポーズの自由度、オブジェクト特性、下流タスクについても調査した。
論文 参考訳(メタデータ) (2024-05-13T14:44:22Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Few Shot Semantic Segmentation: a review of methodologies, benchmarks, and open challenges [5.0243930429558885]
Few-Shot Semanticはコンピュータビジョンの新しいタスクであり、いくつかの例で新しいセマンティッククラスをセグメンテーションできるモデルを設計することを目的としている。
本稿では、Few-Shot Semanticの総合的な調査からなり、その進化を辿り、様々なモデル設計を探求する。
論文 参考訳(メタデータ) (2023-04-12T13:07:37Z) - On Efficient Real-Time Semantic Segmentation: A Survey [12.404169549562523]
我々は、低メモリの組み込みシステムにデプロイ可能な、よりコンパクトで効率的なモデルで、このミスアライメントに対処することを目的とした作業について検討する。
我々は,一貫したハードウェアおよびソフトウェア構成下で,議論されたモデルの推論速度を評価する。
実験結果から,リソース制約のあるハードウェア上でのリアルタイム性能を実証し,レイテンシと精度の相反するトレードオフを考察した。
論文 参考訳(メタデータ) (2022-06-17T08:00:27Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - Learning Long-term Visual Dynamics with Region Proposal Interaction
Networks [75.06423516419862]
オブジェクト間およびオブジェクト環境間の相互作用を長距離にわたってキャプチャするオブジェクト表現を構築します。
単純だが効果的なオブジェクト表現のおかげで、我々の手法は先行手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2020-08-05T17:48:00Z) - SideInfNet: A Deep Neural Network for Semi-Automatic Semantic
Segmentation with Side Information [83.03179580646324]
本稿では,新たなディープニューラルネットワークアーキテクチャであるSideInfNetを提案する。
画像から学習した機能とユーザアノテーションから抽出したサイド情報を統合する。
提案手法を評価するために,提案したネットワークを3つのセマンティックセグメンテーションタスクに適用し,ベンチマークデータセットに対する広範な実験を行った。
論文 参考訳(メタデータ) (2020-02-07T06:10:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。