Fugu-MT 論文翻訳(概要): Panoptic SwiftNet: Pyramidal Fusion for Real-time Panoptic Segmentation

論文の概要: Panoptic SwiftNet: Pyramidal Fusion for Real-time Panoptic Segmentation

arxiv url: http://arxiv.org/abs/2203.07908v2
Date: Tue, 18 Apr 2023 14:46:07 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-19 18:58:50.889600
Title: Panoptic SwiftNet: Pyramidal Fusion for Real-time Panoptic Segmentation
Title（参考訳）: Panoptic SwiftNet: リアルタイムパノプティックセグメンテーションのためのピラミッドフュージョン
Authors: Josip \v{S}ari\'c, Marin Or\v{s}i\'c, Sini\v{s}a \v{S}egvi\'c
Abstract要約: 多くのアプリケーションは、安価なハードウェアや組み込みハードウェアの大規模な入力解像度よりも高速な推論を必要とする。マルチスケール特徴抽出のためのバックボーン容量をトレードオフすることで,この目標を達成することを提案する。本稿では,Cityscapes,Vistas,COCO,BSB-Aerialデータセットについてパノラマ実験を行った。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Dense panoptic prediction is a key ingredient in many existing applications such as autonomous driving, automated warehouses or remote sensing. Many of these applications require fast inference over large input resolutions on affordable or even embedded hardware. We propose to achieve this goal by trading off backbone capacity for multi-scale feature extraction. In comparison with contemporaneous approaches to panoptic segmentation, the main novelties of our method are efficient scale-equivariant feature extraction, cross-scale upsampling through pyramidal fusion and boundary-aware learning of pixel-to-instance assignment. The proposed method is very well suited for remote sensing imagery due to the huge number of pixels in typical city-wide and region-wide datasets. We present panoptic experiments on Cityscapes, Vistas, COCO and the BSB-Aerial dataset. Our models outperform the state of the art on the BSB-Aerial dataset while being able to process more than a hundred 1MPx images per second on a RTX3090 GPU with FP16 precision and TensorRT optimization.
Abstract（参考訳）: Dense Panoptic Predictionは、自動運転、自動倉庫、リモートセンシングなど、既存の多くのアプリケーションにおいて重要な要素である。これらのアプリケーションの多くは、安価なハードウェアや組み込みハードウェア上の大きな入力解像度よりも高速な推論を必要とする。マルチスケール特徴抽出のためのバックボーン容量をトレードオフすることで,この目標を達成することを提案する。パンオプティカルセグメンテーションに対する同時期のアプローチと比較して,提案手法の主な特徴は,効率的なスケール同変特徴抽出,ピラミッド融合によるクロススケールアップサンプリング,画素対インテンス割り当てのバウンダリアウェア学習である。提案手法は,都市全体および地域全体のデータセットの画素数が多いため,リモートセンシングに非常に適している。我々は,都市景観,vista,coco,bsb-aerialデータセットに関するpanoptic実験を行う。我々のモデルは、FP16精度とTensorRT最適化を備えたRTX3090 GPU上で、毎秒100万MPx以上の画像を処理しながら、BSB-Aerialデータセット上の技術状況よりも優れています。

関連論文リスト

Pixel-Wise Multimodal Contrastive Learning for Remote Sensing Images [3.346542738111468]
衛星画像からの視覚特性の変動を符号化するために,ピクセルワイズ2次元(2次元)表現を利用する新しい手法を提案する。 PIMC(PIxel-wise Multimodal Contrastive)も導入した。実験結果から,2次元表現を用いることで,SITSからの特徴抽出が大幅に向上することが示唆された。
論文参考訳（メタデータ） (2026-01-07T17:41:11Z)
CAT: A Conditional Adaptation Tailor for Efficient and Effective Instance-Specific Pansharpening on Real-World Data [7.471505633354803]
本稿では、特定の入力インスタンスに適応し、トレーニングと推論の両方を短時間で完了する効率的なフレームワークを提案する。本手法は,512times512$イメージのトレーニングと推論の両方を,textit0.4 seconds$で実現する。
論文参考訳（メタデータ） (2025-04-14T14:04:55Z)
Pan-LUT: Efficient Pan-sharpening via Learnable Look-Up Tables [32.23794092167474]
パンシャーピングのための学習可能なルックアップテーブルフレームワークであるPan-LUTを提案する。 Pan-LUTは高解像度リモートセンシング画像の性能と計算効率のバランスをとる。提案手法は300K未満のパラメータを含み、8K解像度画像を1ms以下で処理する。
論文参考訳（メタデータ） (2025-03-31T07:13:59Z)
SparseFormer: Detecting Objects in HRW Shots via Sparse Vision Transformer [62.11796778482088]
本稿では,近接撮影とHRW撮影のオブジェクト検出のギャップを埋めるために,SparseFormerと呼ばれるモデル非依存のスパース視覚変換器を提案する。提案されたSparseFormerは、オブジェクトを含む可能性のあるスパース分散ウィンドウを精査するために、注意トークンを選択的に使用する。 2つのHRWベンチマークであるPANDAとDOTA-v1.0の実験により、提案されたSparseFormerは、最先端のアプローチよりも検出精度(最大5.8%)と速度(最大3倍)を大幅に改善することを示した。
論文参考訳（メタデータ） (2025-02-11T03:21:25Z)
Multi-Head Attention Residual Unfolded Network for Model-Based Pansharpening [2.874893537471256]
展開融合法は、ディープラーニングの強力な表現能力とモデルベースアプローチの堅牢性を統合する。本稿では,衛星画像融合のためのモデルに基づく深部展開手法を提案する。 PRISMA、Quickbird、WorldView2データセットの実験結果から、本手法の優れた性能が示された。
論文参考訳（メタデータ） (2024-09-04T13:05:00Z)
SaccadeDet: A Novel Dual-Stage Architecture for Rapid and Accurate Detection in Gigapixel Images [50.742420049839474]
SaccadeDetは、人間の目の動きにインスパイアされた、ギガピクセルレベルの物体検出のための革新的なアーキテクチャである。 PANDAデータセットを用いて評価した本手法は,最先端手法の8倍の高速化を実現する。また、全スライドイメージングへの応用を通じて、ギガピクセルレベルの病理解析に有意な可能性を示す。
論文参考訳（メタデータ） (2024-07-25T11:22:54Z)
Exploring Multi-view Pixel Contrast for General and Robust Image Forgery Localization [4.8454936010479335]
本稿では,画像フォージェリーローカライゼーションのための多視点Pixel-wise Contrastive Algorithm (MPC)を提案する。具体的には、まず、教師付きコントラスト損失を伴うバックボーンネットワークを事前訓練する。次に、クロスエントロピー損失を用いてローカライゼーションヘッドを微調整し、ピクセルローカライザを改良する。
論文参考訳（メタデータ） (2024-06-19T13:51:52Z)
Cascaded Cross-Attention Networks for Data-Efficient Whole-Slide Image Classification Using Transformers [0.11219061154635457]
全スライディングイメージングは、組織標本の高解像度画像のキャプチャとデジタル化を可能にする。高解像度情報を効果的に活用するための候補としてトランスフォーマーアーキテクチャが提案されている。本稿では,抽出されたパッチ数と線形にスケールするクロスアテンション機構に基づく新しいカスケード型クロスアテンションネットワーク(CCAN)を提案する。
論文参考訳（メタデータ） (2023-05-11T16:42:24Z)
Efficient Context Integration through Factorized Pyramidal Learning for Ultra-Lightweight Semantic Segmentation [1.0499611180329804]
本稿では,FPL(Facterized Pyramidal Learning)モジュールを提案する。空間ピラミッドを2つのステージに分解し,モジュール内での簡易かつ効率的な特徴融合により,悪名高いチェッカーボード効果を解決する。 FPLモジュールとFIRユニットをベースとしたFPLNetと呼ばれる超軽量リアルタイムネットワークを提案する。
論文参考訳（メタデータ） (2023-02-23T05:34:51Z)
Probabilistic Deep Metric Learning for Hyperspectral Image Classification [91.5747859691553]
本稿では,ハイパースペクトル画像分類のための確率論的深度学習フレームワークを提案する。ハイパースペクトルセンサーが捉えた画像に対して、各ピクセルのカテゴリを予測することを目的としている。我々のフレームワークは、既存のハイパースペクトル画像分類法に容易に適用できる。
論文参考訳（メタデータ） (2022-11-15T17:57:12Z)
GoToNet: Fast Monocular Scene Exposure and Exploration [0.6204265638103346]
リアルタイム環境探索のための新しい手法を提案する。我々の方法は良い戦術的な決定を下すのに一面(イメージ)しか必要としない。 GotoとLookatと呼ばれる画素が特徴である2つの方向予測が,本手法のコアを構成する。
論文参考訳（メタデータ） (2022-06-13T08:28:31Z)
FOVEA: Foveated Image Magnification for Autonomous Navigation [53.69803081925454]
入力キャンバスを小さく保ちながら、ある領域を弾性的に拡大する注意的アプローチを提案する。提案手法は,高速R-CNNより高速かつ微調整の少ない検出APを高速化する。 Argoverse-HD と BDD100K の自律走行データセットでは,提案手法が標準の高速 R-CNN を超越した検出APを微調整なしで促進することを示す。
論文参考訳（メタデータ） (2021-08-27T03:07:55Z)
Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。デュアルエンコーダは検索スケールとして魅力的です視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文参考訳（メタデータ） (2021-03-30T17:57:08Z)
Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文参考訳（メタデータ） (2020-08-19T13:13:01Z)
Real-Time High-Performance Semantic Image Segmentation of Urban Street Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文参考訳（メタデータ） (2020-03-11T08:45:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。