論文の概要: StructToken : Rethinking Semantic Segmentation with Structural Prior
- arxiv url: http://arxiv.org/abs/2203.12612v1
- Date: Wed, 23 Mar 2022 17:58:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-24 15:18:26.676217
- Title: StructToken : Rethinking Semantic Segmentation with Structural Prior
- Title(参考訳): structtoken : structure priorを用いた意味セグメンテーション再考
- Authors: Fangjian Lin, Zhanhao Liang, Junjun He, Miao Zheng, Shengwei Tian, Kai
Chen
- Abstract要約: 本稿では,意味的セグメンテーションのための新しいパラダイムである構造トークン(StructToken)を提案する。
本稿では,セマンティックマスクの予測に先立って構造情報を取得する構造認識アルゴリズムを提案する。
3つの相互作用手法が検討され、その結果は最先端の手法に勝るだけでなく、より構造的な情報も含む。
- 参考スコア(独自算出の注目度): 13.322787708919956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present structure token (StructToken), a new paradigm for
semantic segmentation. From a perspective on semantic segmentation as per-pixel
classification, the previous deep learning-based methods learn the per-pixel
representation first through an encoder and a decoder head and then classify
each pixel representation to a specific category to obtain the semantic masks.
Differently, we propose a structure-aware algorithm that takes structural
information as prior to predict semantic masks directly without per-pixel
classification. Specifically, given an input image, the learnable structure
token interacts with the image representations to reason the final semantic
masks. Three interaction approaches are explored and the results not only
outperform the state-of-the-art methods but also contain more structural
information. Experiments are conducted on three widely used datasets including
ADE20k, Cityscapes, and COCO-Stuff 10K. We hope that structure token could
serve as an alternative for semantic segmentation and inspire future research.
- Abstract(参考訳): 本稿では,意味的セグメンテーションのための新しいパラダイムである構造トークン(StructToken)を提案する。
セマンティックセグメンテーション(セマンティックセグメンテーション)をピクセル単位の分類として考えると、従来のディープラーニングベースの手法はまずエンコーダとデコーダヘッドを通してピクセル単位の表現を学び、その後、各ピクセル表現を特定のカテゴリに分類してセマンティックマスクを得る。
そこで本研究では,画素ごとの分類を行なわずに,セマンティックマスクを直接予測する構造情報を取得する構造認識アルゴリズムを提案する。
具体的には、入力画像が与えられると、学習可能な構造トークンが画像表現と相互作用し、最終的な意味マスクを推論する。
3つの相互作用手法が検討され、その結果は最先端の手法を上回るだけでなく、より構造的な情報も含む。
ADE20k、Cityscapes、COCO-Stuff 10Kなど、広く使用されている3つのデータセットで実験が行われた。
構造トークンがセマンティックセグメンテーションの代替となり、将来の研究を刺激することを期待している。
関連論文リスト
- Boosting Semantic Segmentation from the Perspective of Explicit Class
Embeddings [19.997929884477628]
クラス埋め込みのメカニズムを探求し、クラスマスクに基づいてより明示的で意味のあるクラス埋め込みを生成することができるという知見を得る。
マルチステージ画像特徴との相互作用において,クラス埋め込みを明示的に獲得・拡張する新たなセグメンテーションパラダイムであるECENetを提案する。
ECENetはADE20Kデータセットよりもはるかに少ない計算コストでパフォーマンスを向上し、PASCAL-Contextデータセット上で新たな最先端結果を達成する。
論文 参考訳(メタデータ) (2023-08-24T16:16:10Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z) - Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。
本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:50:59Z) - Deep Hierarchical Semantic Segmentation [76.40565872257709]
階層的セマンティックセマンティックセグメンテーション(HSS)は、クラス階層の観点で視覚的観察を構造化、ピクセル単位で記述することを目的としている。
HSSNは、HSSを画素単位のマルチラベル分類タスクとしてキャストし、現在のセグメンテーションモデルに最小限のアーキテクチャ変更をもたらすだけである。
階層構造によって引き起こされるマージンの制約により、HSSNはピクセル埋め込み空間を再評価し、よく構造化されたピクセル表現を生成する。
論文 参考訳(メタデータ) (2022-03-27T15:47:44Z) - 3D Compositional Zero-shot Learning with DeCompositional Consensus [102.7571947144639]
我々は、部分的知識は観察されたオブジェクトクラスを超えて構成可能であるべきだと論じる。
本稿では、視覚から見えないオブジェクトクラスへの部分一般化の問題として、3D合成ゼロショット学習を提案する。
論文 参考訳(メタデータ) (2021-11-29T16:34:53Z) - Robust 3D Scene Segmentation through Hierarchical and Learnable
Part-Fusion [9.275156524109438]
3Dセマンティックセグメンテーションは、自律運転、ロボット工学、AR/VRといったいくつかのシーン理解アプリケーションのための基本的なビルディングブロックである。
従来の手法では、階層的で反復的な手法を用いて意味や事例情報を融合するが、文脈融合における学習性は欠如している。
本稿では,セグメンテーション・フュージョン(Seegment-Fusion)について述べる。
論文 参考訳(メタデータ) (2021-11-16T13:14:47Z) - Exploring Cross-Image Pixel Contrast for Semantic Segmentation [130.22216825377618]
完全教師付きセッティングにおけるセマンティックセグメンテーションのための画素単位のコントラストフレームワークを提案する。
中心となる考え方は、同じセマンティッククラスに属するピクセルの埋め込みを、異なるクラスの埋め込みよりもよく似ているように強制することである。
テスト中に余分なオーバーヘッドを伴わずに既存のセグメンテーションフレームワークに懸命に組み込むことができる。
論文 参考訳(メタデータ) (2021-01-28T11:35:32Z) - From Pixel to Patch: Synthesize Context-aware Features for Zero-shot
Semantic Segmentation [22.88452754438478]
ゼロショットセマンティックセマンティックセマンティックセマンティクスは,カテゴリレベルのセマンティクスのみを持つ未確認オブジェクトのセマンティクスを目的としたセマンティクスである。
本研究では,コンテキスト認識機能生成ネットワーク(CaGNet)を提案する。
Pascal-VOC, Pascal-Context, COCO-stuff の実験結果から,本手法は既存のゼロショットセマンティックセマンティックセグメンテーション法よりも有意に優れていることが示された。
論文 参考訳(メタデータ) (2020-09-25T13:26:30Z) - Weakly-Supervised Semantic Segmentation via Sub-category Exploration [73.03956876752868]
我々は、オブジェクトの他の部分に注意を払うために、ネットワークを強制する単純で効果的なアプローチを提案する。
具体的には、画像の特徴をクラスタリングして、アノテーション付き親クラスごとに擬似サブカテゴリラベルを生成する。
提案手法の有効性を検証し,提案手法が最先端手法に対して良好に機能することを示す。
論文 参考訳(メタデータ) (2020-08-03T20:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。