論文の概要: Efficient Multi-Task RGB-D Scene Analysis for Indoor Environments
- arxiv url: http://arxiv.org/abs/2207.04526v1
- Date: Sun, 10 Jul 2022 20:03:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-12 14:35:35.577619
- Title: Efficient Multi-Task RGB-D Scene Analysis for Indoor Environments
- Title(参考訳): 室内環境におけるマルチタスクRGB-Dシーン解析の効率化
- Authors: Daniel Seichter, S\"ohnke Benedikt Fischedick, Mona K\"ohler,
Horst-Michael Gro{\ss}
- Abstract要約: RGB-Dシーン解析(EMSANet)のための効率的なマルチタスク手法を提案する。
パフォーマンスを低下させることなく、モバイルプラットフォーム上で1つのニューラルネットワークを使用して、すべてのタスクをリアルタイムで達成できることを示します。
我々は,NYUv2 と SUNRGB-D の屋内シーン解析のための総合的なマルチタスク設定の結果を初めて提示する。
- 参考スコア(独自算出の注目度): 13.274695420192884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic scene understanding is essential for mobile agents acting in various
environments. Although semantic segmentation already provides a lot of
information, details about individual objects as well as the general scene are
missing but required for many real-world applications. However, solving
multiple tasks separately is expensive and cannot be accomplished in real time
given limited computing and battery capabilities on a mobile platform. In this
paper, we propose an efficient multi-task approach for RGB-D scene
analysis~(EMSANet) that simultaneously performs semantic and instance
segmentation~(panoptic segmentation), instance orientation estimation, and
scene classification. We show that all tasks can be accomplished using a single
neural network in real time on a mobile platform without diminishing
performance - by contrast, the individual tasks are able to benefit from each
other. In order to evaluate our multi-task approach, we extend the annotations
of the common RGB-D indoor datasets NYUv2 and SUNRGB-D for instance
segmentation and orientation estimation. To the best of our knowledge, we are
the first to provide results in such a comprehensive multi-task setting for
indoor scene analysis on NYUv2 and SUNRGB-D.
- Abstract(参考訳): セマンティックシーン理解は,様々な環境で行動する移動エージェントにとって不可欠である。
セマンティクスのセグメンテーションはすでに多くの情報を提供しているが、個々のオブジェクトや一般的なシーンの詳細は欠落しているが、現実世界のアプリケーションでは必須である。
しかし、複数のタスクを個別に解くことは高価であり、モバイルプラットフォーム上で限られた計算能力とバッテリー能力によってリアルタイムでは達成できない。
本稿では,semantic and instance segmentation~(panoptic segmentation), instance orientation estimation, scene classificationを同時に実行する,rgb-d scene analysis~(emsanet)のための効率的なマルチタスク手法を提案する。
私たちは、モバイルプラットフォーム上で単一のニューラルネットワークを使って、パフォーマンスを低下させることなく、すべてのタスクをリアルタイムで達成できることを示しました。
マルチタスク・アプローチを評価するため, 共通RGB-D屋内データセットであるNYUv2とSUNRGB-Dのアノテーションを拡張した。
我々の知る限り、我々は、NYUv2とSUNRGB-Dの屋内シーン分析のための総合的なマルチタスク設定を初めて提供する。
関連論文リスト
- Joint Depth Prediction and Semantic Segmentation with Multi-View SAM [59.99496827912684]
我々は,Segment Anything Model(SAM)のリッチなセマンティック特徴を利用した深度予測のためのマルチビューステレオ(MVS)手法を提案する。
この拡張深度予測は、Transformerベースのセマンティックセグメンテーションデコーダのプロンプトとして役立ちます。
論文 参考訳(メタデータ) (2023-10-31T20:15:40Z) - Efficient Multi-Task Scene Analysis with RGB-D Transformers [7.9011213682805215]
本稿では,RGB-D Transformer をベースとしたエンコーダを用いたマルチタスクシーン解析手法 EMSAFormer を提案する。
提案手法では,NVIDIA Jetson AGX Orin 32GB上で39.1 FPSの推論が可能でありながら,最先端の性能を実現している。
論文 参考訳(メタデータ) (2023-06-08T14:41:56Z) - A Dynamic Feature Interaction Framework for Multi-task Visual Perception [100.98434079696268]
複数の共通認識課題を解決するための効率的な統合フレームワークを考案する。
これらのタスクには、インスタンスセグメンテーション、セマンティックセグメンテーション、モノクル3D検出、深さ推定が含まれる。
提案するフレームワークはD2BNetと呼ばれ,マルチタスク認識のためのパラメータ効率予測に一意なアプローチを示す。
論文 参考訳(メタデータ) (2023-06-08T09:24:46Z) - A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented,
Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。
私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文 参考訳(メタデータ) (2023-03-08T01:29:55Z) - TarViS: A Unified Approach for Target-based Video Segmentation [115.5770357189209]
TarViSは、ビデオで任意に定義された「ターゲット」の集合をセグメント化する必要があるあらゆるタスクに適用できる、新しく統合されたネットワークアーキテクチャである。
我々のアプローチは、タスクがこれらのターゲットをどのように定義するかに関して柔軟であり、後者を抽象的な「クエリ」としてモデル化し、ピクセル精度の高いターゲットマスクを予測するのに使用される。
その有効性を示すために、TarViSをビデオインスタンス(VIS)、ビデオパノプティクス(VPS)、ビデオオブジェクト(VOS)、ポイントインテンプラ誘導トラッキング(PET)の4つのタスクに適用する。
論文 参考訳(メタデータ) (2023-01-06T18:59:52Z) - PanDepth: Joint Panoptic Segmentation and Depth Completion [19.642115764441016]
本稿では,RGB画像とスパース深度マップを用いたマルチタスクモデルを提案する。
本モデルでは,完全な深度マップの予測に成功し,各入力フレームに対してセマンティックセグメンテーション,インスタンスセグメンテーション,パノプティックセグメンテーションを行う。
論文 参考訳(メタデータ) (2022-12-29T05:37:38Z) - Exploring Relational Context for Multi-Task Dense Prediction [76.86090370115]
我々は,共通バックボーンと独立タスク固有のヘッドで表される,密集予測タスクのためのマルチタスク環境を考える。
マルチタスク設定では,グローバルやローカルなど,さまざまな注意に基づくコンテキストを探索する。
タスクペアごとに利用可能なすべてのコンテキストのプールをサンプリングするAdaptive Task-Relational Contextモジュールを提案する。
論文 参考訳(メタデータ) (2021-04-28T16:45:56Z) - STEP: Segmenting and Tracking Every Pixel [107.23184053133636]
新しいベンチマークを示す: Segmenting and Tracking Every Pixel (STEP)
私たちの仕事は、空間領域と時間領域の両方で密な解釈を必要とする現実世界の設定で、このタスクをターゲットとする最初のものです。
性能を測定するために,新しい評価指標と追跡品質(STQ)を提案する。
論文 参考訳(メタデータ) (2021-02-23T18:43:02Z) - Efficient RGB-D Semantic Segmentation for Indoor Scene Analysis [16.5390740005143]
NVIDIARTを用いて高次に最適化可能な,効率的かつ堅牢なRGB-Dセグメンテーション手法を提案する。
RGB-Dセグメンテーションは、RGB画像のみを処理するよりも優れており、ネットワークアーキテクチャが慎重に設計されている場合、リアルタイムに実行可能であることを示す。
論文 参考訳(メタデータ) (2020-11-13T15:17:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。