論文の概要: Feature Selective Transformer for Semantic Image Segmentation
- arxiv url: http://arxiv.org/abs/2203.14124v2
- Date: Tue, 29 Mar 2022 07:57:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-30 10:34:12.533461
- Title: Feature Selective Transformer for Semantic Image Segmentation
- Title(参考訳): 意味的画像分割のための特徴選択変換器
- Authors: Fangjian Lin, Tianyi Wu, Sitong Wu, Shengwei Tian, Guodong Guo
- Abstract要約: セマンティックセグメンテーションのためのTransformerベースのバックボーンからマルチスケール機能を融合することに重点を置いている。
本稿では,各クエリ機能のすべてのスケール(あるいはレベル)から機能を集約するFeSeFormerを提案する。
提案したSFSおよびFFFモジュールに基づいてFeSeFormer(FeSeFormer)を開発し、4つの挑戦的なセマンティックセマンティックセマンティクスベンチマークでFeSeFormerを評価する。
- 参考スコア(独自算出の注目度): 31.894640853222793
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, it has attracted more and more attentions to fuse multi-scale
features for semantic image segmentation. Various works were proposed to employ
progressive local or global fusion, but the feature fusions are not rich enough
for modeling multi-scale context features. In this work, we focus on fusing
multi-scale features from Transformer-based backbones for semantic
segmentation, and propose a Feature Selective Transformer (FeSeFormer), which
aggregates features from all scales (or levels) for each query feature.
Specifically, we first propose a Scale-level Feature Selection (SFS) module,
which can choose an informative subset from the whole multi-scale feature set
for each scale, where those features that are important for the current scale
(or level) are selected and the redundant are discarded. Furthermore, we
propose a Full-scale Feature Fusion (FFF) module, which can adaptively fuse
features of all scales for queries. Based on the proposed SFS and FFF modules,
we develop a Feature Selective Transformer (FeSeFormer), and evaluate our
FeSeFormer on four challenging semantic segmentation benchmarks, including
PASCAL Context, ADE20K, COCO-Stuff 10K, and Cityscapes, outperforming the
state-of-the-art.
- Abstract(参考訳): 近年,semantic image segmentationのためのfuse multi-scale機能に注目が集まっている。
プログレッシブ・ローカルやグローバル・フュージョンを採用するために様々な研究が提案されたが、機能融合はマルチスケール・コンテキストの特徴をモデル化するには不十分である。
本研究では,意味的セグメンテーションのためにTransformerベースのバックボーンからマルチスケール機能を融合することに注力し,各クエリ機能のすべてのスケール(あるいはレベル)から機能を集約するFeSeFormer(FeSeFormer)を提案する。
具体的には、まず、スケールレベルの特徴選択(SFS)モジュールを提案し、各スケールのマルチスケールの特徴セット全体から情報的サブセットを選択し、現在のスケール(またはレベル)において重要な特徴を選択し、冗長な特徴を破棄する。
さらに,すべてのスケールの機能をクエリに対して適応的に融合できるフルスケール機能融合モジュールを提案する。
提案したSFSおよびFFFモジュールに基づいてFeSeFormer(FeSeFormer)を開発し,PASCALコンテキスト,ADE20K,COCO-Stuff 10K,Cityscapesの4つの挑戦的セマンティックセマンティックセマンティックセグメンテーションベンチマークを用いてFeSeFormerの評価を行った。
関連論文リスト
- A Refreshed Similarity-based Upsampler for Direct High-Ratio Feature Upsampling [54.05517338122698]
本稿では,セマンティック・アウェアとディテール・アウェアの両方の観点から,明示的に制御可能なクエリキー機能アライメントを提案する。
また,モーザイクアーティファクトを緩和するのには単純だが有効であるHR特徴量に対して,きめ細かな近傍選択戦略を開発した。
提案するReSFUフレームワークは,異なるセグメンテーションアプリケーション上での良好な性能を一貫して達成する。
論文 参考訳(メタデータ) (2024-07-02T14:12:21Z) - Local-to-Global Cross-Modal Attention-Aware Fusion for HSI-X Semantic Segmentation [19.461033552684576]
HSI-X分類のためのローカル・グローバル・クロスモーダル・アテンション・アウェア・フュージョン(LoGoCAF)フレームワークを提案する。
LoGoCAFは、HSIとXのモダリティから情報を学ぶために、ピクセルからピクセルまでのセマンティックセマンティックセマンティックセマンティクスアーキテクチャを採用している。
論文 参考訳(メタデータ) (2024-06-25T16:12:20Z) - Isomer: Isomerous Transformer for Zero-shot Video Object Segmentation [59.91357714415056]
コンテクスト共有変換器(CST)とセマンティックガザリング散乱変換器(SGST)の2つの変種を提案する。
CSTは、軽量な計算により、画像フレーム内のグローバル共有コンテキスト情報を学習し、SGSTは、前景と背景のセマンティック相関を別々にモデル化する。
多段核融合にバニラ変換器を使用するベースラインと比較して,我々は13倍の速度向上を実現し,新しい最先端ZVOS性能を実現する。
論文 参考訳(メタデータ) (2023-08-13T06:12:00Z) - Category Feature Transformer for Semantic Segmentation [34.812688388968525]
CFTは、各アグリゲーションプロセス中の高レベル特徴から、個々のセマンティックカテゴリのための統合された機能埋め込みを学習する。
一般的なセマンティックセグメンテーションベンチマークについて広範な実験を行う。
提案したCFTは、挑戦的なADE20Kデータセット上のモデルパラメータと計算を大幅に削減した、説得力のある55.1% mIoUを得る。
論文 参考訳(メタデータ) (2023-08-10T13:44:54Z) - SemAffiNet: Semantic-Affine Transformation for Point Cloud Segmentation [94.11915008006483]
ポイントクラウドセマンティックセグメンテーションのためのSemAffiNetを提案する。
我々はScanNetV2とNYUv2データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-05-26T17:00:23Z) - Transformer Scale Gate for Semantic Segmentation [53.27673119360868]
Transformer Scale Gate (TSG) は、視覚変換器の自己および横断的な注意をスケール選択に活用する。
Pascal ContextとADE20Kデータセットに関する我々の実験は、我々の特徴選択戦略が一貫した利益を達成することを示す。
論文 参考訳(メタデータ) (2022-05-14T13:11:39Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - Polyp-PVT: Polyp Segmentation with Pyramid Vision Transformers [124.01928050651466]
本稿では,Polyp-PVTと呼ばれる新しいタイプのPolypセグメンテーション手法を提案する。
提案モデルであるPolyp-PVTは,特徴の雑音を効果的に抑制し,その表現能力を大幅に向上させる。
論文 参考訳(メタデータ) (2021-08-16T07:09:06Z) - DSIC: Dynamic Sample-Individualized Connector for Multi-Scale Object
Detection [33.61001547745264]
マルチスケールオブジェクト検出のための動的サンプル独立接続器(DSIC)を提案する。
ISGは、機能統合の入力としてバックボーンから多レベル特徴を適応的に抽出する。
CSGはマルチレベル機能に基づいて情報伝達経路を自動的に活性化する。
論文 参考訳(メタデータ) (2020-11-16T08:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。