論文の概要: Panoptic SwiftNet: Pyramidal Fusion for Real-time Panoptic Segmentation
- arxiv url: http://arxiv.org/abs/2203.07908v1
- Date: Tue, 15 Mar 2022 13:47:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-16 15:51:31.142802
- Title: Panoptic SwiftNet: Pyramidal Fusion for Real-time Panoptic Segmentation
- Title(参考訳): Panoptic SwiftNet: リアルタイムパノプティックセグメンテーションのためのピラミッドフュージョン
- Authors: Josip \v{S}ari\'c, Marin Or\v{s}i\'c, Sini\v{s}a \v{S}egvi\'c
- Abstract要約: 実際のデプロイメントでは、組み込みハードウェア上の大きな入力解像度よりもリアルタイムな推論が必要となる。
我々は,マルチスケール特徴抽出のためのバックボーン容量のトレードオフにより,この目標を達成することを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dense panoptic prediction is a key ingredient in many existing applications
such as autonomous driving, automated warehouses or agri-robotics. However,
most of these applications leverage the recovered dense semantics as an input
to visual closed-loop control. Hence, practical deployments require real-time
inference over large input resolutions on embedded hardware. These requirements
call for computationally efficient approaches which deliver high accuracy with
limited computational resources. We propose to achieve this goal by trading-off
backbone capacity for multi-scale feature extraction. In comparison with
contemporaneous approaches to panoptic segmentation, the main novelties of our
method are scale-equivariant feature extraction and cross-scale upsampling
through pyramidal fusion. Our best model achieves 55.9% PQ on Cityscapes val at
60 FPS on full resolution 2MPx images and RTX3090 with FP16 Tensor RT
optimization.
- Abstract(参考訳): デンスパン光学予測は、自動運転、自動倉庫、アグリロボティクスなど、既存の多くのアプリケーションにおいて重要な要素である。
しかし、これらのアプリケーションのほとんどは、ビジュアルクローズドループ制御への入力として、回復した密接なセマンティクスを利用する。
したがって、実際のデプロイメントでは、組み込みハードウェア上の大きな入力解像度よりもリアルタイムな推論が必要となる。
これらの要件は、限られた計算資源で高い精度を提供する計算効率のよいアプローチを求める。
我々は,マルチスケール特徴抽出のためのトレーディングオフバックボーンキャパシティにより,この目標を達成することを提案する。
パンオプティカルセグメンテーションに対する同時代のアプローチと比較して,本手法の主な特徴は,ピラミッド融合によるスケール同変特徴抽出とクロススケールアップサンプリングである。
我々の最良のモデルは、フル解像度の2MPxイメージで60 FPSでCityscapes val上で55.9%のPQ、FP16 Tensor RT最適化でRTX3090を達成する。
関連論文リスト
- Multi-Head Attention Residual Unfolded Network for Model-Based Pansharpening [2.874893537471256]
展開融合法は、ディープラーニングの強力な表現能力とモデルベースアプローチの堅牢性を統合する。
本稿では,衛星画像融合のためのモデルに基づく深部展開手法を提案する。
PRISMA、Quickbird、WorldView2データセットの実験結果から、本手法の優れた性能が示された。
論文 参考訳(メタデータ) (2024-09-04T13:05:00Z) - SaccadeDet: A Novel Dual-Stage Architecture for Rapid and Accurate Detection in Gigapixel Images [50.742420049839474]
SaccadeDetは、人間の目の動きにインスパイアされた、ギガピクセルレベルの物体検出のための革新的なアーキテクチャである。
PANDAデータセットを用いて評価した本手法は,最先端手法の8倍の高速化を実現する。
また、全スライドイメージングへの応用を通じて、ギガピクセルレベルの病理解析に有意な可能性を示す。
論文 参考訳(メタデータ) (2024-07-25T11:22:54Z) - Exploring Multi-view Pixel Contrast for General and Robust Image Forgery Localization [4.8454936010479335]
本稿では,画像フォージェリーローカライゼーションのための多視点Pixel-wise Contrastive Algorithm (MPC)を提案する。
具体的には、まず、教師付きコントラスト損失を伴うバックボーンネットワークを事前訓練する。
次に、クロスエントロピー損失を用いてローカライゼーションヘッドを微調整し、ピクセルローカライザを改良する。
論文 参考訳(メタデータ) (2024-06-19T13:51:52Z) - Cascaded Cross-Attention Networks for Data-Efficient Whole-Slide Image
Classification Using Transformers [0.11219061154635457]
全スライディングイメージングは、組織標本の高解像度画像のキャプチャとデジタル化を可能にする。
高解像度情報を効果的に活用するための候補としてトランスフォーマーアーキテクチャが提案されている。
本稿では,抽出されたパッチ数と線形にスケールするクロスアテンション機構に基づく新しいカスケード型クロスアテンションネットワーク(CCAN)を提案する。
論文 参考訳(メタデータ) (2023-05-11T16:42:24Z) - Efficient Context Integration through Factorized Pyramidal Learning for
Ultra-Lightweight Semantic Segmentation [1.0499611180329804]
本稿では,FPL(Facterized Pyramidal Learning)モジュールを提案する。
空間ピラミッドを2つのステージに分解し,モジュール内での簡易かつ効率的な特徴融合により,悪名高いチェッカーボード効果を解決する。
FPLモジュールとFIRユニットをベースとしたFPLNetと呼ばれる超軽量リアルタイムネットワークを提案する。
論文 参考訳(メタデータ) (2023-02-23T05:34:51Z) - Probabilistic Deep Metric Learning for Hyperspectral Image
Classification [91.5747859691553]
本稿では,ハイパースペクトル画像分類のための確率論的深度学習フレームワークを提案する。
ハイパースペクトルセンサーが捉えた画像に対して、各ピクセルのカテゴリを予測することを目的としている。
我々のフレームワークは、既存のハイパースペクトル画像分類法に容易に適用できる。
論文 参考訳(メタデータ) (2022-11-15T17:57:12Z) - GoToNet: Fast Monocular Scene Exposure and Exploration [0.6204265638103346]
リアルタイム環境探索のための新しい手法を提案する。
我々の方法は良い戦術的な決定を下すのに一面(イメージ)しか必要としない。
GotoとLookatと呼ばれる画素が特徴である2つの方向予測が,本手法のコアを構成する。
論文 参考訳(メタデータ) (2022-06-13T08:28:31Z) - FOVEA: Foveated Image Magnification for Autonomous Navigation [53.69803081925454]
入力キャンバスを小さく保ちながら、ある領域を弾性的に拡大する注意的アプローチを提案する。
提案手法は,高速R-CNNより高速かつ微調整の少ない検出APを高速化する。
Argoverse-HD と BDD100K の自律走行データセットでは,提案手法が標準の高速 R-CNN を超越した検出APを微調整なしで促進することを示す。
論文 参考訳(メタデータ) (2021-08-27T03:07:55Z) - Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with
Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。
このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。
デュアルエンコーダは 検索スケールとして魅力的です
視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-03-30T17:57:08Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。