論文の概要: CAST: Concurrent Recognition and Segmentation with Adaptive Segment
Tokens
- arxiv url: http://arxiv.org/abs/2210.00314v2
- Date: Tue, 4 Oct 2022 17:33:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 10:33:33.945526
- Title: CAST: Concurrent Recognition and Segmentation with Adaptive Segment
Tokens
- Title(参考訳): CAST:適応セグメントトークンによる同時認識とセグメンテーション
- Authors: Tsung-Wei Ke, Jyh-Jing Hwang and Stella X. Yu
- Abstract要約: 非ラベル画像に基づく階層的画像分割による画像認識を学習する。
私たちの研究は、監督なしに、最初の同時認識と階層分割モデルを提供します。
- 参考スコア(独自算出の注目度): 45.435377462998325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recognizing an image and segmenting it into coherent regions are often
treated as separate tasks. Human vision, however, has a general sense of
segmentation hierarchy before recognition occurs. We are thus inspired to learn
image recognition with hierarchical image segmentation based entirely on
unlabeled images. Our insight is to learn fine-to-coarse features concurrently
at superpixels, segments, and full image levels, enforcing consistency and
goodness of feature induced segmentations while maximizing discrimination among
image instances.
Our model innovates vision transformers on three aspects. 1) We use adaptive
segment tokens instead of fixed-shape patch tokens. 2) We create a token
hierarchy by inserting graph pooling between transformer blocks, naturally
producing consistent multi-scale segmentations while increasing the segment
size and reducing the number of tokens. 3) We produce hierarchical image
segmentation for free while training for recognition by maximizing image-wise
discrimination.
Our work delivers the first concurrent recognition and hierarchical
segmentation model without any supervision. Validated on ImageNet and PASCAL
VOC, it achieves better recognition and segmentation with higher computational
efficiency.
- Abstract(参考訳): 画像を認識してコヒーレントな領域に分割することは、しばしば別のタスクとして扱われる。
しかし、人間の視覚は認識される前にセグメンテーション階層の一般的な感覚を持っている。
したがって,ラベルなし画像に基づく階層的画像分割による画像認識の学習に着想を得た。
我々の洞察は、画像インスタンス間の識別を最大化しつつ、特徴誘発セグメンテーションの一貫性と良さを強制し、スーパーピクセル、セグメント、フルイメージレベルで並列に微調整機能を学ぶことである。
我々のモデルは3つの面で視覚トランスフォーマーを革新する。
1)固定形パッチトークンの代わりに適応セグメントトークンを使用する。
2) 変圧器ブロック間のグラフプーリングを挿入してトークン階層を作成し, セグメントサイズを増大させ, トークン数を減少させながら, 自然に一貫したマルチスケールセグメンテーションを創出する。
3) 画像識別の最大化による認識訓練中に, 自由な階層画像分割を行う。
我々の研究は、監督なしに最初の同時認識と階層分割モデルを提供します。
ImageNetとPASCAL VOCで検証され、高い計算効率でより良い認識とセグメンテーションを実現する。
関連論文リスト
- Unsupervised Universal Image Segmentation [59.0383635597103]
本稿では,Unsupervised Universal Model (U2Seg) を提案する。
U2Segは、自己教師付きモデルを利用して、これらのセグメンテーションタスクの擬似意味ラベルを生成する。
次に、これらの擬似意味ラベル上でモデルを自己学習し、かなりの性能向上をもたらす。
論文 参考訳(メタデータ) (2023-12-28T18:59:04Z) - Learning Semantic Segmentation with Query Points Supervision on Aerial
Images [62.36946925639107]
セマンティックセグメンテーションアルゴリズムを学習するための弱教師付き学習アルゴリズムを提案する。
提案手法は正確なセマンティックセグメンテーションを行い,手作業のアノテーションに要するコストと時間を大幅に削減することで効率を向上する。
論文 参考訳(メタデータ) (2023-09-11T14:32:04Z) - ISLE: A Framework for Image Level Semantic Segmentation Ensemble [5.137284292672375]
従来のセマンティックセグメンテーションネットワークは、最先端の予測品質に到達するために、大量のピクセル単位のアノテートラベルを必要とする。
クラスレベルで異なるセマンティックセグメンテーション手法のセットに「擬似ラベル」のアンサンブルを用いるISLEを提案する。
私たちはISLEの個々のコンポーネントよりも2.4%改善しています。
論文 参考訳(メタデータ) (2023-03-14T13:36:36Z) - Self-Supervised Correction Learning for Semi-Supervised Biomedical Image
Segmentation [84.58210297703714]
半教師付きバイオメディカルイメージセグメンテーションのための自己教師付き補正学習パラダイムを提案する。
共有エンコーダと2つの独立デコーダを含むデュアルタスクネットワークを設計する。
異なるタスクのための3つの医用画像分割データセットの実験により,本手法の優れた性能が示された。
論文 参考訳(メタデータ) (2023-01-12T08:19:46Z) - Maximize the Exploration of Congeneric Semantics for Weakly Supervised
Semantic Segmentation [27.155133686127474]
グラフニューラルネットワーク(P-GNN)を,同一のクラスラベルを含む異なる画像からの自己検出パッチに基づいて構築する。
PASCAL VOC 2012ベンチマークで実験を行い、そのモデルにより最先端の性能が得られた。
論文 参考訳(メタデータ) (2021-10-08T08:59:16Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z) - Semantic Segmentation with Generative Models: Semi-Supervised Learning
and Strong Out-of-Domain Generalization [112.68171734288237]
本論文では,画像とラベルの再生モデルを用いた識別画素レベルのタスクのための新しいフレームワークを提案する。
我々は,共同画像ラベルの分布を捕捉し,未ラベル画像の大規模な集合を用いて効率的に訓練する生成的対向ネットワークを学習する。
ドメイン内性能をいくつかのベースラインと比較し,ドメイン外一般化を極端に示す最初の例である。
論文 参考訳(メタデータ) (2021-04-12T21:41:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。