論文の概要: Superpixel Transformers for Efficient Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2309.16889v2
- Date: Mon, 2 Oct 2023 21:28:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 07:01:00.741433
- Title: Superpixel Transformers for Efficient Semantic Segmentation
- Title(参考訳): 効率的なセマンティクスセグメンテーションのためのスーパーピクセルトランスフォーマ
- Authors: Alex Zihao Zhu, Jieru Mei, Siyuan Qiao, Hang Yan, Yukun Zhu,
Liang-Chieh Chen, Henrik Kretzschmar
- Abstract要約: 本稿では,画像の過剰部分化というスーパーピクセルの考え方を活用し,近代的なトランスフォーマーフレームワークでそれらを適用することによって,その解決策を提案する。
提案手法は,グローバルな自己認識機構によって生成されるリッチなスーパーピクセル特徴により,セマンティックセマンティックセグメンテーションにおける最先端性能を実現する。
- 参考スコア(独自算出の注目度): 32.537400525407186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic segmentation, which aims to classify every pixel in an image, is a
key task in machine perception, with many applications across robotics and
autonomous driving. Due to the high dimensionality of this task, most existing
approaches use local operations, such as convolutions, to generate per-pixel
features. However, these methods are typically unable to effectively leverage
global context information due to the high computational costs of operating on
a dense image. In this work, we propose a solution to this issue by leveraging
the idea of superpixels, an over-segmentation of the image, and applying them
with a modern transformer framework. In particular, our model learns to
decompose the pixel space into a spatially low dimensional superpixel space via
a series of local cross-attentions. We then apply multi-head self-attention to
the superpixels to enrich the superpixel features with global context and then
directly produce a class prediction for each superpixel. Finally, we directly
project the superpixel class predictions back into the pixel space using the
associations between the superpixels and the image pixel features. Reasoning in
the superpixel space allows our method to be substantially more computationally
efficient compared to convolution-based decoder methods. Yet, our method
achieves state-of-the-art performance in semantic segmentation due to the rich
superpixel features generated by the global self-attention mechanism. Our
experiments on Cityscapes and ADE20K demonstrate that our method matches the
state of the art in terms of accuracy, while outperforming in terms of model
parameters and latency.
- Abstract(参考訳): セマンティックセグメンテーション(Semantic segmentation)は、画像中のすべてのピクセルを分類することを目的としており、ロボット工学や自動運転にまたがる多くの応用において、機械認識の重要なタスクである。
このタスクの高次元のため、既存のアプローチの多くは畳み込みなどのローカル操作を使用してピクセル単位の機能を生成する。
しかし、これらの手法は通常、高密度画像上で操作する計算コストが高いため、グローバルコンテキスト情報を効果的に活用できない。
そこで本研究では,超ピクセル,画像のオーバーセグメンテーション,最新のトランスフォーマフレームワークを応用し,この問題に対する解決法を提案する。
特に,本モデルでは,画素空間を局所的クロスアテンションによって空間的に低次元のスーパーピクセル空間に分解することを学ぶ。
そして、スーパーピクセルにマルチヘッドセルフアテンションを適用し、グローバルコンテキストでスーパーピクセル機能を強化し、スーパーピクセル毎にクラス予測を直接生成します。
最後に、スーパーピクセルと画像画素の特徴の関連性を利用して、スーパーピクセルクラスの予測を直接画素空間に投影する。
超ピクセル空間における推論により,畳み込みに基づくデコーダ法に比べて計算効率が大幅に向上した。
しかし,本手法は,グローバルな自己認識機構によって生成されるリッチなスーパーピクセル特徴により,セマンティックセグメンテーションにおける最先端性能を実現する。
Cityscapes と ADE20K に関する実験では,モデルパラメータやレイテンシの面では優れておりながら,精度の面では我々の手法が最先端であることを示した。
関連論文リスト
- Pixel-Inconsistency Modeling for Image Manipulation Localization [63.54342601757723]
デジタル画像法医学は、画像認証と操作のローカライゼーションにおいて重要な役割を果たす。
本稿では,画素不整合アーチファクトの解析を通じて,一般化されたロバストな操作ローカライゼーションモデルを提案する。
実験により,本手法は固有の画素不整合偽指紋を抽出することに成功した。
論文 参考訳(メタデータ) (2023-09-30T02:54:51Z) - Adaptive Superpixel for Active Learning in Semantic Segmentation [34.0733215363568]
本稿では,ピクセル単位のアノテーションではなく,上位のラベルを収集する,スーパーピクセル単位のアクティブラーニングフレームワークを提案する。
スーパーピクセル毎に支配的なラベルを持つことは、クリック数が少なくなるため、アノテータの負担を大幅に削減する。
また、潜在的にノイズの多いアノテーションを学習から識別し排除するシービングメカニズムも考案した。
論文 参考訳(メタデータ) (2023-03-29T16:07:06Z) - Efficient Multiscale Object-based Superpixel Framework [62.48475585798724]
我々は,SICLE(Iterative CLEarcutting)によるスーパーピクセルという,新しいスーパーピクセルフレームワークを提案する。
SICLEは、複数スケールのセグメンテーションをオンザフライで生成できるオブジェクト情報を利用する。
これは最近のスーパーピクセル法を一般化し、複数のデライン化指標に従って効率と効率性に関する最先端のアプローチを超越している。
論文 参考訳(メタデータ) (2022-04-07T15:59:38Z) - Saliency Enhancement using Superpixel Similarity [77.34726150561087]
Saliency Object Detection (SOD) は画像解析にいくつかの応用がある。
深層学習に基づくSOD法は最も効果的であるが、類似した色を持つ前景の部品を見逃すことがある。
スーパーピクセル類似性(SESS)に対するtextitSaliency Enhancement というポストプロセッシング手法を導入する。
我々は,SESSが5つの画像データセット上での3つのディープラーニングに基づくSOD手法の結果を連続的に,かつ著しく改善できることを実証した。
論文 参考訳(メタデータ) (2021-12-01T17:22:54Z) - SIN:Superpixel Interpolation Network [9.046310874823002]
従来のアルゴリズムとディープラーニングベースのアルゴリズムは、スーパーピクセルセグメンテーションにおける2つの主要なストリームである。
本稿では,エンド・ツー・エンド方式で下流タスクと統合可能な深層学習に基づくスーパーピクセルセグメンテーションアルゴリズムSINを提案する。
論文 参考訳(メタデータ) (2021-10-17T02:21:11Z) - Generating Superpixels for High-resolution Images with Decoupled Patch
Calibration [82.21559299694555]
Patch Networks (PCNet) は高解像度のスーパーピクセルセグメンテーションを効率的かつ正確に実装するように設計されている。
DPCは高解像度画像から局所パッチを取得し、動的にバイナリマスクを生成し、ネットワークを領域境界に集中させる。
特に、DPCは高解像度画像からローカルパッチを取り、動的にバイナリマスクを生成して、ネットワークを領域境界に集中させる。
論文 参考訳(メタデータ) (2021-08-19T10:33:05Z) - HERS Superpixels: Deep Affinity Learning for Hierarchical Entropy Rate
Segmentation [0.0]
スーパーピクセルセグメンテーションのための2段階グラフベースのフレームワークを提案する。
最初の段階では,ペアワイズ画素親和性を学習するディープ親和性学習ネットワークを導入する。
第2段階では階層エントロピーレート(HERS)と呼ばれる高効率スーパーピクセル法を提案する。
論文 参考訳(メタデータ) (2021-06-07T16:20:04Z) - Implicit Integration of Superpixel Segmentation into Fully Convolutional
Networks [11.696069523681178]
スーパーピクセル方式をCNNに暗黙的に統合する方法を提案する。
提案手法では,下地層に画素を階層的にグループ化し,スーパーピクセルを生成する。
本手法は,セマンティックセグメンテーション,スーパーピクセルセグメンテーション,モノクル深度推定などのタスクで評価する。
論文 参考訳(メタデータ) (2021-03-05T02:20:26Z) - AINet: Association Implantation for Superpixel Segmentation [82.21559299694555]
今回提案する新しいtextbfAssociation textbfImplantation(AI)モジュールは、ネットワークがピクセルとその周辺グリッド間の関係を明示的にキャプチャすることを可能にする。
本手法は最先端性能を実現するだけでなく,十分な推論効率を維持することができた。
論文 参考訳(メタデータ) (2021-01-26T10:40:13Z) - Superpixel Segmentation Based on Spatially Constrained Subspace
Clustering [57.76302397774641]
独立意味情報を持つ各代表領域を部分空間とみなし,部分空間クラスタリング問題としてスーパーピクセルセグメンテーションを定式化する。
従来のサブスペースクラスタリングとスーパーピクセルセグメンテーションの簡単な統合は,画素の空間相関のために効果的に機能しないことを示す。
本稿では,空間隣接画素に類似の属性を付加してスーパーピクセルにクラスタリング可能な,凸局所性制約付きサブスペースクラスタリングモデルを提案する。
論文 参考訳(メタデータ) (2020-12-11T06:18:36Z) - Superpixel Segmentation with Fully Convolutional Networks [32.878045921919714]
本稿では,通常の画像グリッド上でのスーパーピクセルの予測に完全畳み込みネットワークを用いる新しい手法を提案する。
ベンチマーク・データセットによる実験結果から,提案手法は最先端のスーパーピクセル・セグメンテーション性能を実現することが示された。
ステレオマッチングのための人気のあるネットワークアーキテクチャを改良し、スーパーピクセルと格差を同時に予測する。
論文 参考訳(メタデータ) (2020-03-29T02:42:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。