論文の概要: Category Feature Transformer for Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2308.05581v1
- Date: Thu, 10 Aug 2023 13:44:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-11 12:18:24.365534
- Title: Category Feature Transformer for Semantic Segmentation
- Title(参考訳): セマンティックセグメンテーションのためのカテゴリー特徴変換器
- Authors: Quan Tang, Chuanjian Liu, Fagui Liu, Yifan Liu, Jun Jiang, Bowen
Zhang, Kai Han, Yunhe Wang
- Abstract要約: CFTは、各アグリゲーションプロセス中の高レベル特徴から、個々のセマンティックカテゴリのための統合された機能埋め込みを学習する。
一般的なセマンティックセグメンテーションベンチマークについて広範な実験を行う。
提案したCFTは、挑戦的なADE20Kデータセット上のモデルパラメータと計算を大幅に削減した、説得力のある55.1% mIoUを得る。
- 参考スコア(独自算出の注目度): 34.812688388968525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aggregation of multi-stage features has been revealed to play a significant
role in semantic segmentation. Unlike previous methods employing point-wise
summation or concatenation for feature aggregation, this study proposes the
Category Feature Transformer (CFT) that explores the flow of category embedding
and transformation among multi-stage features through the prevalent multi-head
attention mechanism. CFT learns unified feature embeddings for individual
semantic categories from high-level features during each aggregation process
and dynamically broadcasts them to high-resolution features. Integrating the
proposed CFT into a typical feature pyramid structure exhibits superior
performance over a broad range of backbone networks. We conduct extensive
experiments on popular semantic segmentation benchmarks. Specifically, the
proposed CFT obtains a compelling 55.1% mIoU with greatly reduced model
parameters and computations on the challenging ADE20K dataset.
- Abstract(参考訳): 多段階の特徴の集約はセマンティックセグメンテーションにおいて重要な役割を果たすことが明らかになった。
本研究は,特徴集約にポイントワイズ総和や連結を用いる従来の手法とは異なり,多段特徴点間のカテゴリ埋め込みと変換の流れを,多面的多面的注意機構を通じて探究するカテゴリ特徴変換(cft)を提案する。
cftは、集約プロセス毎のハイレベル機能から個々のセマンティックカテゴリに対する統一的な機能埋め込みを学び、それらを高解像度機能に動的にブロードキャストする。
提案したCFTを典型的な特徴ピラミッド構造に統合すると、幅広いバックボーンネットワークよりも優れた性能を示す。
我々は、一般的なセマンティクスセグメンテーションベンチマークに関する広範囲な実験を行う。
具体的には、提案するcftは、ade20kデータセットのモデルパラメータと計算量を大幅に削減した55.1%のmiouを得る。
関連論文リスト
- CFPFormer: Feature-pyramid like Transformer Decoder for Segmentation and Detection [1.837431956557716]
特徴ピラミッドは、医療画像のセグメンテーションやオブジェクト検出といったタスクのために、畳み込みニューラルネットワーク(CNN)やトランスフォーマーで広く採用されている。
本稿では,特徴ピラミッドと変圧器を統合したデコーダブロックを提案する。
本モデルでは,既存手法と比較して,小型物体の検出性能が向上する。
論文 参考訳(メタデータ) (2024-04-23T18:46:07Z) - A Decoding Scheme with Successive Aggregation of Multi-Level Features for Light-Weight Semantic Segmentation [4.454210876879237]
セマンティックセグメンテーションのための新しいデコード方式を提案する。
エンコーダからマルチレベルの機能をマルチスケールアーキテクチャで取り出す。
計算コストの削減だけでなく、セグメンテーションの精度の向上も目指している。
論文 参考訳(メタデータ) (2024-02-17T05:31:10Z) - Multi-Content Interaction Network for Few-Shot Segmentation [37.80624074068096]
Few-Shot COCOは、サポート画像の制限とクラス内における大きな相違に挑戦している。
この問題を解決するために,MCINet(Multi-Content Interaction Network)を提案する。
MCINetは、他のクエリブランチから低レベルの構造情報を高レベルのセマンティック機能に組み込むことで、FSSを改善している。
論文 参考訳(メタデータ) (2023-03-11T04:21:59Z) - SemAffiNet: Semantic-Affine Transformation for Point Cloud Segmentation [94.11915008006483]
ポイントクラウドセマンティックセグメンテーションのためのSemAffiNetを提案する。
我々はScanNetV2とNYUv2データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-05-26T17:00:23Z) - Multi-scale and Cross-scale Contrastive Learning for Semantic
Segmentation [5.281694565226513]
セグメンテーションネットワークによって抽出されたマルチスケール特徴の識別能力を高めるために,コントラスト学習を適用した。
まず、エンコーダのマルチスケール表現を共通の特徴空間にマッピングすることにより、教師付き局所言語制約の新しい形式をインスタンス化する。
論文 参考訳(メタデータ) (2022-03-25T01:24:24Z) - Consistency and Diversity induced Human Motion Segmentation [231.36289425663702]
本稿では,CDMS(Consistency and Diversity induced Human Motion)アルゴリズムを提案する。
我々のモデルは、ソースとターゲットデータを異なる多層特徴空間に分解する。
ソースとターゲットデータ間の領域ギャップを低減するために、マルチミューチュアル学習戦略を実行する。
論文 参考訳(メタデータ) (2022-02-10T06:23:56Z) - CFNet: Learning Correlation Functions for One-Stage Panoptic
Segmentation [46.252118473248316]
バックボーンの特徴を高めるために,まず,異なる場所のセマンティックレベルとインスタンスレベルの相関関係を推定することを提案する。
次に,改良された識別特徴をそれぞれ対応するセグメンテーションヘッドに供給する。
PQは45.1ドル%、ADE20kは32.6ドル%である。
論文 参考訳(メタデータ) (2022-01-13T05:31:14Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Sequential Hierarchical Learning with Distribution Transformation for
Image Super-Resolution [83.70890515772456]
画像SRのための逐次階層学習型超解像ネットワーク(SHSR)を構築した。
特徴のスケール間相関を考察し、階層的情報を段階的に探索するシーケンシャルなマルチスケールブロック(SMB)を考案する。
実験結果から,SHSRは最先端手法に優れた定量的性能と視覚的品質が得られることが示された。
論文 参考訳(メタデータ) (2020-07-19T01:35:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。