論文の概要: Panoptic SwiftNet: Pyramidal Fusion for Real-time Panoptic Segmentation
- arxiv url: http://arxiv.org/abs/2203.07908v2
- Date: Tue, 18 Apr 2023 14:46:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-19 18:58:50.889600
- Title: Panoptic SwiftNet: Pyramidal Fusion for Real-time Panoptic Segmentation
- Title(参考訳): Panoptic SwiftNet: リアルタイムパノプティックセグメンテーションのためのピラミッドフュージョン
- Authors: Josip \v{S}ari\'c, Marin Or\v{s}i\'c, Sini\v{s}a \v{S}egvi\'c
- Abstract要約: 多くのアプリケーションは、安価なハードウェアや組み込みハードウェアの大規模な入力解像度よりも高速な推論を必要とする。
マルチスケール特徴抽出のためのバックボーン容量をトレードオフすることで,この目標を達成することを提案する。
本稿では,Cityscapes,Vistas,COCO,BSB-Aerialデータセットについてパノラマ実験を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dense panoptic prediction is a key ingredient in many existing applications
such as autonomous driving, automated warehouses or remote sensing. Many of
these applications require fast inference over large input resolutions on
affordable or even embedded hardware. We propose to achieve this goal by
trading off backbone capacity for multi-scale feature extraction. In comparison
with contemporaneous approaches to panoptic segmentation, the main novelties of
our method are efficient scale-equivariant feature extraction, cross-scale
upsampling through pyramidal fusion and boundary-aware learning of
pixel-to-instance assignment. The proposed method is very well suited for
remote sensing imagery due to the huge number of pixels in typical city-wide
and region-wide datasets. We present panoptic experiments on Cityscapes,
Vistas, COCO and the BSB-Aerial dataset. Our models outperform the state of the
art on the BSB-Aerial dataset while being able to process more than a hundred
1MPx images per second on a RTX3090 GPU with FP16 precision and TensorRT
optimization.
- Abstract(参考訳): Dense Panoptic Predictionは、自動運転、自動倉庫、リモートセンシングなど、既存の多くのアプリケーションにおいて重要な要素である。
これらのアプリケーションの多くは、安価なハードウェアや組み込みハードウェア上の大きな入力解像度よりも高速な推論を必要とする。
マルチスケール特徴抽出のためのバックボーン容量をトレードオフすることで,この目標を達成することを提案する。
パンオプティカルセグメンテーションに対する同時期のアプローチと比較して,提案手法の主な特徴は,効率的なスケール同変特徴抽出,ピラミッド融合によるクロススケールアップサンプリング,画素対インテンス割り当てのバウンダリアウェア学習である。
提案手法は,都市全体および地域全体のデータセットの画素数が多いため,リモートセンシングに非常に適している。
我々は,都市景観,vista,coco,bsb-aerialデータセットに関するpanoptic実験を行う。
我々のモデルは、FP16精度とTensorRT最適化を備えたRTX3090 GPU上で、毎秒100万MPx以上の画像を処理しながら、BSB-Aerialデータセット上の技術状況よりも優れています。
関連論文リスト
- Multi-Head Attention Residual Unfolded Network for Model-Based Pansharpening [2.874893537471256]
展開融合法は、ディープラーニングの強力な表現能力とモデルベースアプローチの堅牢性を統合する。
本稿では,衛星画像融合のためのモデルに基づく深部展開手法を提案する。
PRISMA、Quickbird、WorldView2データセットの実験結果から、本手法の優れた性能が示された。
論文 参考訳(メタデータ) (2024-09-04T13:05:00Z) - SaccadeDet: A Novel Dual-Stage Architecture for Rapid and Accurate Detection in Gigapixel Images [50.742420049839474]
SaccadeDetは、人間の目の動きにインスパイアされた、ギガピクセルレベルの物体検出のための革新的なアーキテクチャである。
PANDAデータセットを用いて評価した本手法は,最先端手法の8倍の高速化を実現する。
また、全スライドイメージングへの応用を通じて、ギガピクセルレベルの病理解析に有意な可能性を示す。
論文 参考訳(メタデータ) (2024-07-25T11:22:54Z) - Exploring Multi-view Pixel Contrast for General and Robust Image Forgery Localization [4.8454936010479335]
本稿では,画像フォージェリーローカライゼーションのための多視点Pixel-wise Contrastive Algorithm (MPC)を提案する。
具体的には、まず、教師付きコントラスト損失を伴うバックボーンネットワークを事前訓練する。
次に、クロスエントロピー損失を用いてローカライゼーションヘッドを微調整し、ピクセルローカライザを改良する。
論文 参考訳(メタデータ) (2024-06-19T13:51:52Z) - Cascaded Cross-Attention Networks for Data-Efficient Whole-Slide Image
Classification Using Transformers [0.11219061154635457]
全スライディングイメージングは、組織標本の高解像度画像のキャプチャとデジタル化を可能にする。
高解像度情報を効果的に活用するための候補としてトランスフォーマーアーキテクチャが提案されている。
本稿では,抽出されたパッチ数と線形にスケールするクロスアテンション機構に基づく新しいカスケード型クロスアテンションネットワーク(CCAN)を提案する。
論文 参考訳(メタデータ) (2023-05-11T16:42:24Z) - Efficient Context Integration through Factorized Pyramidal Learning for
Ultra-Lightweight Semantic Segmentation [1.0499611180329804]
本稿では,FPL(Facterized Pyramidal Learning)モジュールを提案する。
空間ピラミッドを2つのステージに分解し,モジュール内での簡易かつ効率的な特徴融合により,悪名高いチェッカーボード効果を解決する。
FPLモジュールとFIRユニットをベースとしたFPLNetと呼ばれる超軽量リアルタイムネットワークを提案する。
論文 参考訳(メタデータ) (2023-02-23T05:34:51Z) - Probabilistic Deep Metric Learning for Hyperspectral Image
Classification [91.5747859691553]
本稿では,ハイパースペクトル画像分類のための確率論的深度学習フレームワークを提案する。
ハイパースペクトルセンサーが捉えた画像に対して、各ピクセルのカテゴリを予測することを目的としている。
我々のフレームワークは、既存のハイパースペクトル画像分類法に容易に適用できる。
論文 参考訳(メタデータ) (2022-11-15T17:57:12Z) - GoToNet: Fast Monocular Scene Exposure and Exploration [0.6204265638103346]
リアルタイム環境探索のための新しい手法を提案する。
我々の方法は良い戦術的な決定を下すのに一面(イメージ)しか必要としない。
GotoとLookatと呼ばれる画素が特徴である2つの方向予測が,本手法のコアを構成する。
論文 参考訳(メタデータ) (2022-06-13T08:28:31Z) - FOVEA: Foveated Image Magnification for Autonomous Navigation [53.69803081925454]
入力キャンバスを小さく保ちながら、ある領域を弾性的に拡大する注意的アプローチを提案する。
提案手法は,高速R-CNNより高速かつ微調整の少ない検出APを高速化する。
Argoverse-HD と BDD100K の自律走行データセットでは,提案手法が標準の高速 R-CNN を超越した検出APを微調整なしで促進することを示す。
論文 参考訳(メタデータ) (2021-08-27T03:07:55Z) - Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with
Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。
このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。
デュアルエンコーダは 検索スケールとして魅力的です
視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-03-30T17:57:08Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。