Fugu-MT 論文翻訳(概要): A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented, Temporal and Depth-aware design

論文の概要: A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented, Temporal and Depth-aware design

arxiv url: http://arxiv.org/abs/2303.04315v1
Date: Wed, 8 Mar 2023 01:29:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-09 15:27:09.721006
Title: A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented, Temporal and Depth-aware design
Title（参考訳）: 深部セマンティックセグメンテーション : 効率指向, 時間, 深さを考慮した設計
Authors: Felipe Manfio Barbosa, Fernando Santos Os\'orio
Abstract要約: 我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
参考スコア（独自算出の注目度）: 77.34726150561087
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Semantic image and video segmentation stand among the most important tasks in computer vision nowadays, since they provide a complete and meaningful representation of the environment by means of a dense classification of the pixels in a given scene. Recently, Deep Learning, and more precisely Convolutional Neural Networks, have boosted semantic segmentation to a new level in terms of performance and generalization capabilities. However, designing Deep Semantic Segmentation models is a complex task, as it may involve application-dependent aspects. Particularly, when considering autonomous driving applications, the robustness-efficiency trade-off, as well as intrinsic limitations - computational/memory bounds and data-scarcity - and constraints - real-time inference - should be taken into consideration. In this respect, the use of additional data modalities, such as depth perception for reasoning on the geometry of a scene, and temporal cues from videos to explore redundancy and consistency, are promising directions yet not explored to their full potential in the literature. In this paper, we conduct a survey on the most relevant and recent advances in Deep Semantic Segmentation in the context of vision for autonomous vehicles, from three different perspectives: efficiency-oriented model development for real-time operation, RGB-Depth data integration (RGB-D semantic segmentation), and the use of temporal information from videos in temporally-aware models. Our main objective is to provide a comprehensive discussion on the main methods, advantages, limitations, results and challenges faced from each perspective, so that the reader can not only get started, but also be up to date in respect to recent advances in this exciting and challenging research field.
Abstract（参考訳）: セマンティック画像とビデオセグメンテーションは、あるシーンにおけるピクセルの密度の高い分類によって、環境の完全かつ意味のある表現を提供するため、コンピュータビジョンにおける最も重要なタスクの1つである。近年、Deep Learning(より正確には畳み込みニューラルネットワーク)は、セマンティックセグメンテーションをパフォーマンスと一般化能力の面で新たなレベルに引き上げている。しかし、深い意味のセグメンテーションモデルを設計するのは複雑なタスクである。特に、自動運転アプリケーションを考える場合、ロバストネス効率のトレードオフと、計算/メモリ境界とデータscarcity、そして制約(リアルタイム推論)を考慮する必要がある。この点において、シーンの幾何学的推論のための深度知覚や、冗長性と一貫性を探求するビデオからの時間的手がかりなどの追加データモダリティの使用は、文学におけるその潜在能力を十分に探求していない有望な方向である。本稿では,リアルタイム運転のための効率指向モデル開発,RGB-Dセマンティックセグメンテーション(RGB-Dセマンティックセグメンテーション),時間的認識モデルにおけるビデオからの時間的情報の利用,という3つの視点から,自動車のビジョンの文脈におけるDeep Semantic Segmentationの最も重要かつ最近の進歩について調査する。我々の主な目的は、各視点で直面する主要な方法、利点、限界、結果、課題に関する包括的な議論を提供することであり、読者が始めるだけでなく、このエキサイティングで挑戦的な研究分野における最近の進歩についても最新のものとなるようにすることである。

関連論文リスト

Point Cloud Based Scene Segmentation: A Survey [3.0846824529023387]
本稿では、自律運転のためのポイントクラウドセマンティックス分野における最先端手法の概要について述べる。提案手法はプロジェクションベース,3Dベース,ハイブリッドに分類する。また,実世界のデータに制限がある場合,研究を支援するための合成データの重要性も強調する。
論文参考訳（メタデータ） (2025-03-16T18:02:41Z)
Deep Learning-Based 3D Instance and Semantic Segmentation: A Review [0.0]
3Dセグメンテーションは、かなり冗長性があり、サンプル密度が変動し、組織が不足しているため、ポイントクラウドデータでは困難である。ディープラーニングは、一般的なAI手法として、2次元視覚領域のスペクトルにうまく使われてきた。本研究では3Dインスタンスとセマンティックセグメンテーションに提示された多くの戦略について検討する。
論文参考訳（メタデータ） (2024-06-19T07:56:14Z)
Frequency-based Matcher for Long-tailed Semantic Segmentation [22.199174076366003]
我々は、比較的未探索なタスク設定、長い尾のセマンティックセマンティックセグメンテーション(LTSS)に焦点を当てる。本稿では,セマンティックセグメンテーション手法と長鎖解の性能を示すために,二値評価システムを提案し,LTSSベンチマークを構築した。また,1対1のマッチングによって過剰な圧縮問題を解決する周波数ベースのマーカであるLTSSを改善するトランスフォーマーベースのアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-06-06T09:57:56Z)
Deep Learning-Based Object Pose Estimation: A Comprehensive Survey [73.74933379151419]
ディープラーニングに基づくオブジェクトポーズ推定の最近の進歩について論じる。また、複数の入力データモダリティ、出力ポーズの自由度、オブジェクト特性、下流タスクについても調査した。
論文参考訳（メタデータ） (2024-05-13T14:44:22Z)
Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文参考訳（メタデータ） (2023-12-18T18:59:51Z)
Generalized Robot 3D Vision-Language Model with Fast Rendering and Pre-Training Vision-Language Alignment [55.11291053011696]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。限定的な再構築の場合、提案手法はWS3D++と呼ばれ、大規模なScanNetベンチマークで1位にランクインした。
論文参考訳（メタデータ） (2023-12-01T15:47:04Z)
Few Shot Semantic Segmentation: a review of methodologies, benchmarks, and open challenges [5.0243930429558885]
Few-Shot Semanticはコンピュータビジョンの新しいタスクであり、いくつかの例で新しいセマンティッククラスをセグメンテーションできるモデルを設計することを目的としている。本稿では、Few-Shot Semanticの総合的な調査からなり、その進化を辿り、様々なモデル設計を探求する。
論文参考訳（メタデータ） (2023-04-12T13:07:37Z)
On Efficient Real-Time Semantic Segmentation: A Survey [12.404169549562523]
我々は、低メモリの組み込みシステムにデプロイ可能な、よりコンパクトで効率的なモデルで、このミスアライメントに対処することを目的とした作業について検討する。我々は,一貫したハードウェアおよびソフトウェア構成下で,議論されたモデルの推論速度を評価する。実験結果から,リソース制約のあるハードウェア上でのリアルタイム性能を実証し,レイテンシと精度の相反するトレードオフを考察した。
論文参考訳（メタデータ） (2022-06-17T08:00:27Z)
A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文参考訳（メタデータ） (2021-07-02T15:51:07Z)
Learning Long-term Visual Dynamics with Region Proposal Interaction Networks [75.06423516419862]
オブジェクト間およびオブジェクト環境間の相互作用を長距離にわたってキャプチャするオブジェクト表現を構築します。単純だが効果的なオブジェクト表現のおかげで、我々の手法は先行手法よりも大幅に優れている。
論文参考訳（メタデータ） (2020-08-05T17:48:00Z)
SideInfNet: A Deep Neural Network for Semi-Automatic Semantic Segmentation with Side Information [83.03179580646324]
本稿では,新たなディープニューラルネットワークアーキテクチャであるSideInfNetを提案する。画像から学習した機能とユーザアノテーションから抽出したサイド情報を統合する。提案手法を評価するために,提案したネットワークを3つのセマンティックセグメンテーションタスクに適用し,ベンチマークデータセットに対する広範な実験を行った。
論文参考訳（メタデータ） (2020-02-07T06:10:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。