論文の概要: Efficient Multi-Task Scene Analysis with RGB-D Transformers
- arxiv url: http://arxiv.org/abs/2306.05242v1
- Date: Thu, 8 Jun 2023 14:41:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 13:55:20.196391
- Title: Efficient Multi-Task Scene Analysis with RGB-D Transformers
- Title(参考訳): RGB-D変換器を用いたマルチタスクシーン解析
- Authors: S\"ohnke Benedikt Fischedick, Daniel Seichter, Robin Schmidt, Leonard
Rabes, and Horst-Michael Gross
- Abstract要約: 本稿では,RGB-D Transformer をベースとしたエンコーダを用いたマルチタスクシーン解析手法 EMSAFormer を提案する。
提案手法では,NVIDIA Jetson AGX Orin 32GB上で39.1 FPSの推論が可能でありながら,最先端の性能を実現している。
- 参考スコア(独自算出の注目度): 7.9011213682805215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene analysis is essential for enabling autonomous systems, such as mobile
robots, to operate in real-world environments. However, obtaining a
comprehensive understanding of the scene requires solving multiple tasks, such
as panoptic segmentation, instance orientation estimation, and scene
classification. Solving these tasks given limited computing and battery
capabilities on mobile platforms is challenging. To address this challenge, we
introduce an efficient multi-task scene analysis approach, called EMSAFormer,
that uses an RGB-D Transformer-based encoder to simultaneously perform the
aforementioned tasks. Our approach builds upon the previously published
EMSANet. However, we show that the dual CNN-based encoder of EMSANet can be
replaced with a single Transformer-based encoder. To achieve this, we
investigate how information from both RGB and depth data can be effectively
incorporated in a single encoder. To accelerate inference on robotic hardware,
we provide a custom NVIDIA TensorRT extension enabling highly optimization for
our EMSAFormer approach. Through extensive experiments on the commonly used
indoor datasets NYUv2, SUNRGB-D, and ScanNet, we show that our approach
achieves state-of-the-art performance while still enabling inference with up to
39.1 FPS on an NVIDIA Jetson AGX Orin 32 GB.
- Abstract(参考訳): シーン分析は、移動ロボットのような自律システムが現実世界の環境で動作できるようにするのに不可欠である。
しかし、シーンの包括的理解を得るには、パンオプティカルセグメンテーション、インスタンス指向推定、シーン分類といった複数のタスクを解決する必要がある。
モバイルプラットフォーム上でのコンピューティングとバッテリの機能に制限のあるタスクの解決は難しい。
この課題に対処するために,RGB-D Transformer を用いたエンコーダを用いた,EMSAFormer と呼ばれる効率的なマルチタスクシーン解析手法を提案する。
我々のアプローチは、以前に公開されたemsanetに基づいている。
しかし、EMSANetの2つのCNNベースのエンコーダは、1つのTransformerベースのエンコーダに置き換えることができる。
そこで本研究では,RGBデータと深度データの両方の情報を,単一のエンコーダに効果的に組み込む方法について検討する。
ロボットハードウェアの推論を高速化するために、EMSAFormerアプローチの高度に最適化可能なNVIDIA TensorRT拡張を提供する。
一般的な屋内データセットであるNYUv2、SUNRGB-D、ScanNetに関する広範な実験を通じて、当社のアプローチは最先端のパフォーマンスを実現しつつ、NVIDIA Jetson AGX Orin 32GB上で39.1 FPSの推論を可能にしていることを示す。
関連論文リスト
- Are We Ready for Real-Time LiDAR Semantic Segmentation in Autonomous Driving? [42.348499880894686]
シーンセマンティックセグメンテーションは、3次元空間データを専門のディープニューラルネットワークと直接統合することで実現できる。
本研究では, NVIDIA Jetson プラットフォーム上でのリソース制約推論の性能と性能を解析し, 様々な3次元セマンティックセマンティックセマンティクス手法について検討する。
論文 参考訳(メタデータ) (2024-10-10T20:47:33Z) - Efficient Transformer Encoders for Mask2Former-style models [57.54752243522298]
ECO-M2Fは、入力画像上に条件付きエンコーダ内の隠蔽層数を自己選択する戦略である。
提案手法は、性能を維持しながら、予測エンコーダの計算コストを削減する。
アーキテクチャ構成では柔軟性があり、セグメンテーションタスクを超えてオブジェクト検出まで拡張できる。
論文 参考訳(メタデータ) (2024-04-23T17:26:34Z) - Multi-objective Differentiable Neural Architecture Search [58.67218773054753]
本研究では,パフォーマンスとハードウェアメトリクスのトレードオフのために,ユーザの好みを符号化するNASアルゴリズムを提案する。
提案手法は,既存のMOO NAS手法を,定性的に異なる検索空間やデータセットの広い範囲で性能良くする。
論文 参考訳(メタデータ) (2024-02-28T10:09:04Z) - EventTransAct: A video transformer-based framework for Event-camera
based action recognition [52.537021302246664]
イベントカメラは、RGBビデオの標準アクション認識と比較して、新しい機会を提供する。
本研究では,最初にイベントフレーム当たりの空間埋め込みを取得するビデオトランスフォーマーネットワーク(VTN)という,計算効率のよいモデルを用いる。
イベントデータのスパースできめ細かい性質にVTNをよりよく採用するために、イベントコントラストロス(mathcalL_EC$)とイベント固有の拡張を設計する。
論文 参考訳(メタデータ) (2023-08-25T23:51:07Z) - Dynamic Grained Encoder for Vision Transformers [150.02797954201424]
本稿では,自然画像の空間的冗長性を生かした視覚変換器のスパースクエリを提案する。
本研究では,各空間領域に適切なクエリ数を適応的に割り当てる動的変換器を提案する。
我々のエンコーダにより、最先端のビジョン変換器は、画像分類において同等の性能を維持しながら、計算複雑性を40%から60%削減できる。
論文 参考訳(メタデータ) (2023-01-10T07:55:29Z) - It Takes Two: Masked Appearance-Motion Modeling for Self-supervised
Video Transformer Pre-training [76.69480467101143]
自己監督型ビデオトランスフォーマーの事前トレーニングは、最近マスク・アンド・予測パイプラインの恩恵を受けている。
本稿では,映像中の動きの手がかりを余分な予測対象として明示的に調査し,マスケッド・出現運動モデリングフレームワークを提案する。
一般的なビデオ表現を学習し、Kinects-400で82.3%、Something V2で71.3%、UCF101で91.5%、HMDB51で62.5%を達成する。
論文 参考訳(メタデータ) (2022-10-11T08:05:18Z) - Robust Double-Encoder Network for RGB-D Panoptic Segmentation [31.807572107839576]
パノプティックセグメンテーションは、ピクセルワイズセマンティックラベルをインスタンスIDと共に計算することでシーンの解釈を提供する。
本稿では、2つのエンコーダを通してRGBと深さを別々に処理する新しいエンコーダデコーダニューラルネットワークを提案する。
提案手法は,他の汎視的セグメンテーション手法と比較して,優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2022-10-06T11:46:37Z) - A Strong Transfer Baseline for RGB-D Fusion in Vision Transformers [0.0]
単視点3Dオブジェクト認識のためのRGB-Dドメインで事前学習したViTを転送するためのレシピを提案する。
我々の適応したViTsは、ワシントン州で95.1%の精度で評価され、このベンチマークで新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-10-03T12:08:09Z) - Efficient Multi-Task RGB-D Scene Analysis for Indoor Environments [13.274695420192884]
RGB-Dシーン解析(EMSANet)のための効率的なマルチタスク手法を提案する。
パフォーマンスを低下させることなく、モバイルプラットフォーム上で1つのニューラルネットワークを使用して、すべてのタスクをリアルタイムで達成できることを示します。
我々は,NYUv2 と SUNRGB-D の屋内シーン解析のための総合的なマルチタスク設定の結果を初めて提示する。
論文 参考訳(メタデータ) (2022-07-10T20:03:38Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Efficient RGB-D Semantic Segmentation for Indoor Scene Analysis [16.5390740005143]
NVIDIARTを用いて高次に最適化可能な,効率的かつ堅牢なRGB-Dセグメンテーション手法を提案する。
RGB-Dセグメンテーションは、RGB画像のみを処理するよりも優れており、ネットワークアーキテクチャが慎重に設計されている場合、リアルタイムに実行可能であることを示す。
論文 参考訳(メタデータ) (2020-11-13T15:17:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。