論文の概要: ASAP: Accurate semantic segmentation for real time performance
- arxiv url: http://arxiv.org/abs/2210.01323v1
- Date: Tue, 4 Oct 2022 02:35:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 13:22:40.455554
- Title: ASAP: Accurate semantic segmentation for real time performance
- Title(参考訳): ASAP:リアルタイムパフォーマンスのための正確なセマンティックセグメンテーション
- Authors: Jaehyun Park, Subin Lee, Eon Kim, Byeongjun Moon, Dabeen Yu, Yeonseung
Yu, Junghwan Kim
- Abstract要約: 異なるノルムを持つ特徴融合法(FFDN)を提案する。
FFDNは、自己注意の前に多層スケールと垂直プールモジュールの豊富なグローバルコンテキストを利用する。
73.1のunion(mIoU)と191のFrame Per Second(FPS)の平均相互作用は、Cityscapesテストデータセットの最先端と同等の結果である。
- 参考スコア(独自算出の注目度): 3.5327983932835165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feature fusion modules from encoder and self-attention module have been
adopted in semantic segmentation. However, the computation of these modules is
costly and has operational limitations in real-time environments. In addition,
segmentation performance is limited in autonomous driving environments with a
lot of contextual information perpendicular to the road surface, such as
people, buildings, and general objects. In this paper, we propose an efficient
feature fusion method, Feature Fusion with Different Norms (FFDN) that utilizes
rich global context of multi-level scale and vertical pooling module before
self-attention that preserves most contextual information while reducing the
complexity of global context encoding in the vertical direction. By doing this,
we could handle the properties of representation in global space and reduce
additional computational cost. In addition, we analyze low performance in
challenging cases including small and vertically featured objects. We achieve
the mean Interaction of-union(mIoU) of 73.1 and the Frame Per Second(FPS) of
191, which are comparable results with state-of-the-arts on Cityscapes test
datasets.
- Abstract(参考訳): エンコーダと自己アテンションモジュールの機能融合モジュールはセマンティックセグメンテーションで採用されている。
しかし、これらのモジュールの計算はコストがかかり、リアルタイム環境では運用上の制限がある。
また,道路面に垂直な環境情報(人,建物,一般物など)を多く含む自動運転環境では,セグメンテーション性能が制限される。
本稿では,マルチレベル・スケールのリッチ・グローバル・コンテクストと,垂直方向のグローバル・コンテクストエンコーディングの複雑さを低減しつつ,ほとんどのコンテクスト情報を保存するセルフ・アテンション前の垂直・プーリング・モジュールを用いた,効率的な特徴融合手法を提案する。
これにより、グローバル空間における表現の性質を処理し、さらなる計算コストを削減できる。
さらに,小型・縦型オブジェクトを含む課題事例における低性能の分析を行った。
73.1のunion(mIoU)と191のFrame Per Second(FPS)の平均相互作用は、Cityscapesテストデータセットの最先端と同等の結果である。
関連論文リスト
- Learning Spatial-Semantic Features for Robust Video Object Segmentation [108.045326229865]
空間意味的特徴と識別的オブジェクトクエリを備えたロバストなビデオオブジェクトセグメンテーションフレームワークを提案する。
提案手法は,複数のデータセットに対して新しい最先端性能を設定できることを示す。
論文 参考訳(メタデータ) (2024-07-10T15:36:00Z) - Spatial-Temporal Multi-level Association for Video Object Segmentation [89.32226483171047]
本稿では,参照フレーム,テストフレーム,オブジェクト特徴を相互に関連付ける空間的・時間的多レベルアソシエーションを提案する。
具体的には,空間的・時間的多段階特徴関連モジュールを構築し,より優れた目標認識特徴を学習する。
論文 参考訳(メタデータ) (2024-04-09T12:44:34Z) - DistFormer: Enhancing Local and Global Features for Monocular Per-Object
Distance Estimation [35.6022448037063]
物体ごとの距離推定は、自律運転、監視、ロボット工学などの安全上重要な応用において重要である。
既存のアプローチは、ローカル情報(すなわち、境界ボックスの割合)とグローバル情報という2つの尺度に依存している。
私たちの仕事は、地域とグローバルの両方の手段を強化することを目的としています。
論文 参考訳(メタデータ) (2024-01-06T10:56:36Z) - Betrayed by Attention: A Simple yet Effective Approach for Self-supervised Video Object Segmentation [76.68301884987348]
自己教師型ビデオオブジェクトセグメンテーション(VOS)のための簡易かつ効果的なアプローチを提案する。
我々の重要な洞察は、DINO-pretrained Transformerに存在する構造的依存関係を利用して、ビデオ内の堅牢な時間分割対応を確立することである。
提案手法は,複数の教師なしVOSベンチマークにまたがる最先端性能を実証し,複雑な実世界のマルチオブジェクトビデオセグメンテーションタスクに優れることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:47:17Z) - On Efficient Real-Time Semantic Segmentation: A Survey [12.404169549562523]
我々は、低メモリの組み込みシステムにデプロイ可能な、よりコンパクトで効率的なモデルで、このミスアライメントに対処することを目的とした作業について検討する。
我々は,一貫したハードウェアおよびソフトウェア構成下で,議論されたモデルの推論速度を評価する。
実験結果から,リソース制約のあるハードウェア上でのリアルタイム性能を実証し,レイテンシと精度の相反するトレードオフを考察した。
論文 参考訳(メタデータ) (2022-06-17T08:00:27Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z) - A Unified Efficient Pyramid Transformer for Semantic Segmentation [40.20512714144266]
我々はコンテキスト情報と境界アーティファクトの両方を考慮してオブジェクトをセグメント化する統一フレームワーク(UN-EPT)を提唱する。
我々はまず,効率的なコンテキストモデリングのために,トランスフォーマーに基づくアテンション機構を組み込むため,スパースサンプリング戦略を適用した。
メモリフットプリントの少ないセマンティックセグメンテーションのための3つの人気のあるベンチマークで有望な性能を示す。
論文 参考訳(メタデータ) (2021-07-29T17:47:32Z) - AttaNet: Attention-Augmented Network for Fast and Accurate Scene Parsing [12.409365458889082]
AttaNet(Attention-Augmented Network)と呼ばれる新しいモデルを提案し、グローバルコンテキストとマルチレベルセマンティクスの両方をキャプチャする。
AttaNet は Strip Attention Module (SAM) と Attention Fusion Module (AFM) の2つの主要なモジュールで構成されている。
論文 参考訳(メタデータ) (2021-03-10T08:38:29Z) - Improving Semantic Segmentation via Decoupled Body and Edge Supervision [89.57847958016981]
既存のセグメンテーションアプローチは、グローバルコンテキストをモデル化することでオブジェクトの内部の一貫性を改善すること、あるいはマルチスケールの特徴融合によって境界に沿ったオブジェクトの詳細を洗練することを目的としている。
本稿では,セマンティックセグメンテーションのための新しいパラダイムを提案する。
我々の洞察は、セマンティックセグメンテーションの魅力ある性能には、画像の高頻度と低頻度に対応するオブジェクトのテキストボディとテキストエッジを具体的にモデル化する必要があるということである。
さまざまなベースラインやバックボーンネットワークを備えた提案したフレームワークが,オブジェクト内部の一貫性とオブジェクト境界を向上させることを示す。
論文 参考訳(メタデータ) (2020-07-20T12:11:22Z) - Real-time Semantic Segmentation with Fast Attention [94.88466483540692]
本稿では,高解像度画像と映像をリアルタイムにセマンティックセグメンテーションするための新しいアーキテクチャを提案する。
提案したアーキテクチャは我々の空間的注意の速さに依存しており、これは一般的な自己注意機構の単純かつ効率的な修正である。
複数のデータセットに対する結果から,既存の手法に比べて精度と速度が向上し,優れた性能を示した。
論文 参考訳(メタデータ) (2020-07-07T22:37:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。