論文の概要: StructToken : Rethinking Semantic Segmentation with Structural Prior
- arxiv url: http://arxiv.org/abs/2203.12612v6
- Date: Fri, 31 Mar 2023 09:11:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-03 17:48:42.834236
- Title: StructToken : Rethinking Semantic Segmentation with Structural Prior
- Title(参考訳): structtoken : structure priorを用いた意味セグメンテーション再考
- Authors: Fangjian Lin, Zhanhao Liang, Sitong Wu, Junjun He, Kai Chen, Shengwei
Tian
- Abstract要約: 本稿では,構造認識抽出というセマンティックセグメンテーションの新しいパラダイムを提案する。
その特徴から各カテゴリの構造情報を段階的に抽出することを目的とした,一連の学習された構造トークンと画像特徴との相互作用によるセグメンテーション結果を生成する。
私たちのStructTokenは、ADE20K、Cityscapes、COCO-Stuff-10Kなど、広く使われている3つのベンチマークにおいて、最先端のベンチマークを上回っています。
- 参考スコア(独自算出の注目度): 14.056789487558731
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In previous deep-learning-based methods, semantic segmentation has been
regarded as a static or dynamic per-pixel classification task, \textit{i.e.,}
classify each pixel representation to a specific category. However, these
methods only focus on learning better pixel representations or classification
kernels while ignoring the structural information of objects, which is critical
to human decision-making mechanism. In this paper, we present a new paradigm
for semantic segmentation, named structure-aware extraction. Specifically, it
generates the segmentation results via the interactions between a set of
learned structure tokens and the image feature, which aims to progressively
extract the structural information of each category from the feature. Extensive
experiments show that our StructToken outperforms the state-of-the-art on three
widely-used benchmarks, including ADE20K, Cityscapes, and COCO-Stuff-10K.
- Abstract(参考訳): 従来のディープラーニングベースの手法では、セマンティックセグメンテーションは静的またはダイナミックなピクセル単位の分類タスクと見なされており、各ピクセル表現を特定のカテゴリに分類する。
しかしながら、これらの手法は、人間の意思決定メカニズムにとって重要なオブジェクトの構造情報を無視しながら、より良いピクセル表現や分類カーネルの学習のみに焦点を当てている。
本稿では,構造認識抽出というセマンティックセグメンテーションの新しいパラダイムを提案する。
具体的には、学習された構造トークンのセットと画像特徴とのインタラクションを通じてセグメンテーション結果を生成し、各カテゴリの構造情報を特徴から段階的に抽出することを目的としている。
広範な実験により,ade20k,cityscapes,coco-stuff-10kの3つのベンチマークにおいて,我々の構造体が最先端を上回っていることが示された。
関連論文リスト
- Boosting Semantic Segmentation from the Perspective of Explicit Class
Embeddings [19.997929884477628]
クラス埋め込みのメカニズムを探求し、クラスマスクに基づいてより明示的で意味のあるクラス埋め込みを生成することができるという知見を得る。
マルチステージ画像特徴との相互作用において,クラス埋め込みを明示的に獲得・拡張する新たなセグメンテーションパラダイムであるECENetを提案する。
ECENetはADE20Kデータセットよりもはるかに少ない計算コストでパフォーマンスを向上し、PASCAL-Contextデータセット上で新たな最先端結果を達成する。
論文 参考訳(メタデータ) (2023-08-24T16:16:10Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z) - Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。
本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:50:59Z) - Deep Hierarchical Semantic Segmentation [76.40565872257709]
階層的セマンティックセマンティックセグメンテーション(HSS)は、クラス階層の観点で視覚的観察を構造化、ピクセル単位で記述することを目的としている。
HSSNは、HSSを画素単位のマルチラベル分類タスクとしてキャストし、現在のセグメンテーションモデルに最小限のアーキテクチャ変更をもたらすだけである。
階層構造によって引き起こされるマージンの制約により、HSSNはピクセル埋め込み空間を再評価し、よく構造化されたピクセル表現を生成する。
論文 参考訳(メタデータ) (2022-03-27T15:47:44Z) - 3D Compositional Zero-shot Learning with DeCompositional Consensus [102.7571947144639]
我々は、部分的知識は観察されたオブジェクトクラスを超えて構成可能であるべきだと論じる。
本稿では、視覚から見えないオブジェクトクラスへの部分一般化の問題として、3D合成ゼロショット学習を提案する。
論文 参考訳(メタデータ) (2021-11-29T16:34:53Z) - Robust 3D Scene Segmentation through Hierarchical and Learnable
Part-Fusion [9.275156524109438]
3Dセマンティックセグメンテーションは、自律運転、ロボット工学、AR/VRといったいくつかのシーン理解アプリケーションのための基本的なビルディングブロックである。
従来の手法では、階層的で反復的な手法を用いて意味や事例情報を融合するが、文脈融合における学習性は欠如している。
本稿では,セグメンテーション・フュージョン(Seegment-Fusion)について述べる。
論文 参考訳(メタデータ) (2021-11-16T13:14:47Z) - Exploring Cross-Image Pixel Contrast for Semantic Segmentation [130.22216825377618]
完全教師付きセッティングにおけるセマンティックセグメンテーションのための画素単位のコントラストフレームワークを提案する。
中心となる考え方は、同じセマンティッククラスに属するピクセルの埋め込みを、異なるクラスの埋め込みよりもよく似ているように強制することである。
テスト中に余分なオーバーヘッドを伴わずに既存のセグメンテーションフレームワークに懸命に組み込むことができる。
論文 参考訳(メタデータ) (2021-01-28T11:35:32Z) - From Pixel to Patch: Synthesize Context-aware Features for Zero-shot
Semantic Segmentation [22.88452754438478]
ゼロショットセマンティックセマンティックセマンティックセマンティクスは,カテゴリレベルのセマンティクスのみを持つ未確認オブジェクトのセマンティクスを目的としたセマンティクスである。
本研究では,コンテキスト認識機能生成ネットワーク(CaGNet)を提案する。
Pascal-VOC, Pascal-Context, COCO-stuff の実験結果から,本手法は既存のゼロショットセマンティックセマンティックセグメンテーション法よりも有意に優れていることが示された。
論文 参考訳(メタデータ) (2020-09-25T13:26:30Z) - Weakly-Supervised Semantic Segmentation via Sub-category Exploration [73.03956876752868]
我々は、オブジェクトの他の部分に注意を払うために、ネットワークを強制する単純で効果的なアプローチを提案する。
具体的には、画像の特徴をクラスタリングして、アノテーション付き親クラスごとに擬似サブカテゴリラベルを生成する。
提案手法の有効性を検証し,提案手法が最先端手法に対して良好に機能することを示す。
論文 参考訳(メタデータ) (2020-08-03T20:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。