論文の概要: Improving Semantic Segmentation in Transformers using Hierarchical
Inter-Level Attention
- arxiv url: http://arxiv.org/abs/2207.02126v1
- Date: Tue, 5 Jul 2022 15:47:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-06 14:52:20.622245
- Title: Improving Semantic Segmentation in Transformers using Hierarchical
Inter-Level Attention
- Title(参考訳): 階層的階層間注意によるトランスフォーマのセマンティクスセグメンテーションの改善
- Authors: Gary Leung, Jun Gao, Xiaohui Zeng, Sanja Fidler
- Abstract要約: Hierarchical Inter-Level Attention (HILA)は、異なるレベルの機能間のボトムアップとトップダウン更新をキャプチャするアテンションベースの手法である。
HILAは階層型ヴィジュアルトランスフォーマーアーキテクチャを拡張し、上位と下位の機能間の局所的な接続をバックボーンエンコーダに追加する。
より少ないパラメータとFLOPSを用いたセマンティックセグメンテーションでは,精度が顕著に向上した。
- 参考スコア(独自算出の注目度): 68.7861229363712
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Existing transformer-based image backbones typically propagate feature
information in one direction from lower to higher-levels. This may not be ideal
since the localization ability to delineate accurate object boundaries, is most
prominent in the lower, high-resolution feature maps, while the semantics that
can disambiguate image signals belonging to one object vs. another, typically
emerges in a higher level of processing. We present Hierarchical Inter-Level
Attention (HILA), an attention-based method that captures Bottom-Up and
Top-Down Updates between features of different levels. HILA extends
hierarchical vision transformer architectures by adding local connections
between features of higher and lower levels to the backbone encoder. In each
iteration, we construct a hierarchy by having higher-level features compete for
assignments to update lower-level features belonging to them, iteratively
resolving object-part relationships. These improved lower-level features are
then used to re-update the higher-level features. HILA can be integrated into
the majority of hierarchical architectures without requiring any changes to the
base model. We add HILA into SegFormer and the Swin Transformer and show
notable improvements in accuracy in semantic segmentation with fewer parameters
and FLOPS. Project website and code:
https://www.cs.toronto.edu/~garyleung/hila/
- Abstract(参考訳): 既存の変換器ベースの画像バックボーンは、通常、1方向から上位レベルまでの特徴情報を伝搬する。
これは、正確なオブジェクト境界を画定するローカライズ機能が低解像度な特徴マップで最も顕著であるのに対して、あるオブジェクトに属する画像信号を他のオブジェクトに対して曖昧にすることができるセマンティクスは、一般的に高いレベルの処理で現れるため、理想的ではないかもしれない。
本稿では,階層的階層間注意(Hierarchical Inter-Level Attention, HILA)を提案する。
HILAは階層型ヴィジュアルトランスフォーマーアーキテクチャを拡張し、上位と下位の機能間の局所的な接続をバックボーンエンコーダに追加する。
各イテレーションにおいて、上位の機能を割り当てて、下位の機能を更新し、反復的にオブジェクト間の関係を解消することで階層を構築する。
これらの改善された下位機能を使用して、上位機能を再アップデートする。
HILAは、ベースモデルを変更することなく、階層アーキテクチャの大部分に統合することができる。
segformer と swin transformer に hila を追加し,パラメータやフラップが少なく,意味セグメンテーションの精度が大幅に向上した。
プロジェクトサイトとコード: https://www.cs.toronto.edu/~garyleung/hila/
関連論文リスト
- Skip-Layer Attention: Bridging Abstract and Detailed Dependencies in Transformers [56.264673865476986]
本稿では、Transformerモデルを強化するためのSLA(Skip-Layer Attention)を提案する。
SLAは、高レベルの抽象機能と低レベルの詳細の間の依存関係をキャプチャするモデルの能力を改善します。
我々の実装は、与えられたレイヤ内のクエリが、現在のレイヤと前のレイヤの両方のキーと値とやり取りできるようにすることで、Transformerの機能を拡張します。
論文 参考訳(メタデータ) (2024-06-17T07:24:38Z) - Pyramid Hierarchical Transformer for Hyperspectral Image Classification [1.9427851979929982]
ピラミッド型階層変換器(PyFormer)を提案する。
この革新的なアプローチは、入力データを階層的にセグメントにまとめ、それぞれが異なる抽象レベルを表す。
その結果,従来の手法よりも提案手法の方が優れていることが示された。
論文 参考訳(メタデータ) (2024-04-23T11:41:19Z) - Skipped Feature Pyramid Network with Grid Anchor for Object Detection [6.99246486061412]
特徴ピラミッドの各レベルにおいてより強力な意味論を得るために,スキップ接続を提案する。
提案手法では,各レベルが一定スケールの物体を検知する責任を負うことがより合理的である。
論文 参考訳(メタデータ) (2023-10-22T23:27:05Z) - Dynamic Perceiver for Efficient Visual Recognition [87.08210214417309]
特徴抽出手順と早期分類タスクを分離する動的知覚器(Dyn-Perceiver)を提案する。
特徴ブランチは画像の特徴を抽出し、分類ブランチは分類タスクに割り当てられた遅延コードを処理する。
早期出口は分類枝に限られており、低レベルの特徴において線形分離性は不要である。
論文 参考訳(メタデータ) (2023-06-20T03:00:22Z) - SemAffiNet: Semantic-Affine Transformation for Point Cloud Segmentation [94.11915008006483]
ポイントクラウドセマンティックセグメンテーションのためのSemAffiNetを提案する。
我々はScanNetV2とNYUv2データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-05-26T17:00:23Z) - Deep Hierarchical Semantic Segmentation [76.40565872257709]
階層的セマンティックセマンティックセグメンテーション(HSS)は、クラス階層の観点で視覚的観察を構造化、ピクセル単位で記述することを目的としている。
HSSNは、HSSを画素単位のマルチラベル分類タスクとしてキャストし、現在のセグメンテーションモデルに最小限のアーキテクチャ変更をもたらすだけである。
階層構造によって引き起こされるマージンの制約により、HSSNはピクセル埋め込み空間を再評価し、よく構造化されたピクセル表現を生成する。
論文 参考訳(メタデータ) (2022-03-27T15:47:44Z) - HAT: Hierarchical Aggregation Transformers for Person Re-identification [87.02828084991062]
我々は,CNNとトランスフォーマーの両方の利点を,高性能な画像ベース人物Re-IDに適用する。
作業は、画像ベースのRe-IDのためのCNNとTransformerの両方の利点を初めて活用する。
論文 参考訳(メタデータ) (2021-07-13T09:34:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。