論文の概要: Concurrent Recognition and Segmentation with Adaptive Segment Tokens
- arxiv url: http://arxiv.org/abs/2210.00314v1
- Date: Sat, 1 Oct 2022 16:31:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 13:21:44.163835
- Title: Concurrent Recognition and Segmentation with Adaptive Segment Tokens
- Title(参考訳): 適応セグメントトークンを用いた同時認識とセグメンテーション
- Authors: Tsung-Wei Ke, Jyh-Jing Hwang and Stella X. Yu
- Abstract要約: 非ラベル画像に基づく階層的画像分割による画像認識を学習する。
私たちの研究は、監督なしに、最初の同時認識と階層分割モデルを提供します。
- 参考スコア(独自算出の注目度): 45.435377462998325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recognizing an image and segmenting it into coherent regions are often
treated as separate tasks. Human vision, however, has a general sense of
segmentation hierarchy before recognition occurs. We are thus inspired to learn
image recognition with hierarchical image segmentation based entirely on
unlabeled images. Our insight is to learn fine-to-coarse features concurrently
at superpixels, segments, and full image levels, enforcing consistency and
goodness of feature induced segmentations while maximizing discrimination among
image instances.
Our model innovates vision transformers on three aspects. 1) We use adaptive
segment tokens instead of fixed-shape patch tokens. 2) We create a token
hierarchy by inserting graph pooling between transformer blocks, naturally
producing consistent multi-scale segmentations while increasing the segment
size and reducing the number of tokens. 3) We produce hierarchical image
segmentation for free while training for recognition by maximizing image-wise
discrimination.
Our work delivers the first concurrent recognition and hierarchical
segmentation model without any supervision. Validated on ImageNet and PASCAL
VOC, it achieves better recognition and segmentation with higher computational
efficiency.
- Abstract(参考訳): 画像を認識してコヒーレントな領域に分割することは、しばしば別のタスクとして扱われる。
しかし、人間の視覚は認識される前にセグメンテーション階層の一般的な感覚を持っている。
したがって,ラベルなし画像に基づく階層的画像分割による画像認識の学習に着想を得た。
我々の洞察は、画像インスタンス間の識別を最大化しつつ、特徴誘発セグメンテーションの一貫性と良さを強制し、スーパーピクセル、セグメント、フルイメージレベルで並列に微調整機能を学ぶことである。
我々のモデルは3つの面で視覚トランスフォーマーを革新する。
1)固定形パッチトークンの代わりに適応セグメントトークンを使用する。
2) 変圧器ブロック間のグラフプーリングを挿入してトークン階層を作成し, セグメントサイズを増大させ, トークン数を減少させながら, 自然に一貫したマルチスケールセグメンテーションを創出する。
3) 画像識別の最大化による認識訓練中に, 自由な階層画像分割を行う。
我々の研究は、監督なしに最初の同時認識と階層分割モデルを提供します。
ImageNetとPASCAL VOCで検証され、高い計算効率でより良い認識とセグメンテーションを実現する。
関連論文リスト
- SOHES: Self-supervised Open-world Hierarchical Entity Segmentation [82.45303116125021]
この研究は、人間のアノテーションを必要としない新しいアプローチであるSOHES(Self-supervised Open World Hierarchical Entities)を提示する。
視覚的特徴クラスタリングにより高品質な擬似ラベルを生成し,教師同士の学習によって擬似ラベルの雑音を補正する。
学習データとして生画像を用いることにより,自己監督型オープンワールドセグメンテーションにおける前例のない性能を実現する。
論文 参考訳(メタデータ) (2024-04-18T17:59:46Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - Self-Correlation and Cross-Correlation Learning for Few-Shot Remote
Sensing Image Semantic Segmentation [27.59330408178435]
リモートセマンティックセマンティックセマンティックセマンティクスは、クエリイメージからターゲットオブジェクトをセグメントすることを学ぶことを目的としている。
本稿では,数発のリモートセンシング画像セマンティックセマンティックセグメンテーションのための自己相関・相互相関学習ネットワークを提案する。
本モデルは,サポート画像とクエリ画像の自己相関と相互相関の両方を考慮し,一般化を促進させる。
論文 参考訳(メタデータ) (2023-09-11T21:53:34Z) - Exploring Open-Vocabulary Semantic Segmentation without Human Labels [76.15862573035565]
我々は、既存の事前学習された視覚言語モデル(VL)を利用して意味的セグメンテーションモデルを訓練するZeroSegを提案する。
ZeroSegは、VLモデルで学んだ視覚概念をセグメントトークンの集合に蒸留することでこれを克服し、それぞれが対象画像の局所化領域を要約する。
提案手法は,他のゼロショットセグメンテーション法と比較して,同じトレーニングデータを用いた場合と比較して,最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T08:47:06Z) - Understanding Self-Supervised Pretraining with Part-Aware Representation
Learning [88.45460880824376]
本研究では,自己教師型表現事前学習手法がパート認識表現を学習する能力について検討する。
その結果,完全教師付きモデルはオブジェクトレベルの認識において自己教師付きモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-01-27T18:58:42Z) - Object discovery and representation networks [78.16003886427885]
本研究では,事前に符号化された構造を自ら発見する自己教師型学習パラダイムを提案する。
Odinはオブジェクト発見と表現ネットワークを結合して意味のある画像のセグメンテーションを発見する。
論文 参考訳(メタデータ) (2022-03-16T17:42:55Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。