論文の概要: SimpleClick: Interactive Image Segmentation with Simple Vision
Transformers
- arxiv url: http://arxiv.org/abs/2210.11006v1
- Date: Thu, 20 Oct 2022 04:20:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 15:00:58.832419
- Title: SimpleClick: Interactive Image Segmentation with Simple Vision
Transformers
- Title(参考訳): simpleclick:simple vision transformersによるインタラクティブな画像セグメンテーション
- Authors: Qin Liu, Zhenlin Xu, Gedas Bertasius, Marc Niethammer
- Abstract要約: クリックベースのインタラクティブイメージセグメンテーションは、限られたユーザクリックでオブジェクトを抽出することを目的としている。
近年,高密度予測タスクのバックボーンとして,非階層型視覚変換器(ViT)が登場している。
アーキテクチャの単純さからSimpleClickと呼ばれる,対話型セグメンテーションのための最初のプレーンバックボーン手法を提案する。
- 参考スコア(独自算出の注目度): 28.36705396062827
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Click-based interactive image segmentation aims at extracting objects with
limited user clicking. Hierarchical backbone is the de-facto architecture for
current methods. Recently, the plain, non-hierarchical Vision Transformer (ViT)
has emerged as a competitive backbone for dense prediction tasks. This design
allows the original ViT to be a foundation model that can be finetuned for the
downstream task without redesigning a hierarchical backbone for pretraining.
Although this design is simple and has been proven effective, it has not yet
been explored for interactive segmentation. To fill this gap, we propose the
first plain-backbone method, termed as SimpleClick due to its simplicity in
architecture, for interactive segmentation. With the plain backbone pretrained
as masked autoencoder (MAE), SimpleClick achieves state-of-the-art performance
without bells and whistles. Remarkably, our method achieves 4.15 NoC@90 on SBD,
improving 21.8% over previous best result. Extensive evaluation of medical
images highlights the generalizability of our method. We also provide a
detailed computation analysis for our method, highlighting its availability as
a practical annotation tool.
- Abstract(参考訳): クリックベースのインタラクティブイメージセグメンテーションは、限られたユーザクリックでオブジェクトを抽出することを目的としている。
階層型バックボーンは、現在のメソッドのデファクトアーキテクチャである。
近年,高密度予測タスクのバックボーンとして,非階層型視覚変換器(ViT)が登場している。
この設計により、オリジナルのViTは、事前トレーニングのために階層的なバックボーンを再設計することなく、下流タスクのために微調整できる基盤モデルとなる。
この設計は単純で有効であることが証明されているが、インタラクティブなセグメンテーションのためにはまだ検討されていない。
このギャップを埋めるために,インタラクティブセグメンテーションのためのアーキテクチャの単純さからsimpleclickと呼ばれる最初のプレーンバックボーン法を提案する。
マスク付きオートエンコーダ(MAE)として事前訓練されたプレーンバックボーンにより、SimpleClickは、ベルやホイッスルなしで最先端のパフォーマンスを実現する。
また,SBDでは4.15 NoC@90を達成し,従来よりも21.8%向上した。
医用画像の広範な評価は,本手法の汎用性を強調した。
また,本手法の詳細な計算解析を行い,実用的なアノテーションツールとしての有用性を強調する。
関連論文リスト
- Correlation Weighted Prototype-based Self-Supervised One-Shot Segmentation of Medical Images [12.365801596593936]
医用画像セグメンテーションは、十分な注釈付きデータが入手できない領域の1つである。
スーパーピクセルから生成された擬似ラベルを用いた,プロトタイプベースのワンショット学習フレームワークを提案する。
提案手法は,最先端の手法と同等に機能することを示す。
論文 参考訳(メタデータ) (2024-08-12T15:38:51Z) - CLIP for Lightweight Semantic Segmentation [14.039603036741278]
本稿では,言語誘導パラダイムを軽量ネットワークに適用する機能融合モジュールを提案する。
このモジュールはモデルに依存しないため、言語誘導の軽量セマンティックセマンティックセグメンテーションを実践できるだけでなく、事前訓練された言語事前知識を完全に活用することができる。
論文 参考訳(メタデータ) (2023-10-11T11:26:35Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Semantic keypoint-based pose estimation from single RGB frames [64.80395521735463]
一つのRGB画像からオブジェクトの連続6-DoFポーズを推定する手法を提案する。
このアプローチは、畳み込みネットワーク(convnet)によって予測されるセマンティックキーポイントと、変形可能な形状モデルを組み合わせる。
提案手法は,インスタンスベースのシナリオとクラスベースのシナリオの両方に対して,6-DoFオブジェクトのポーズを正確に復元できることを示す。
論文 参考訳(メタデータ) (2022-04-12T15:03:51Z) - Fashionformer: A simple, Effective and Unified Baseline for Human
Fashion Segmentation and Recognition [80.74495836502919]
本研究では,共同ファッションセグメンテーションと属性認識に着目した。
本稿では,セグメンテーションのためのオブジェクトクエリと属性予測のための属性クエリを紹介する。
属性ストリームのために,よりきめ細かい特徴を探索する新しいマルチレイヤレンダリングモジュールを設計する。
論文 参考訳(メタデータ) (2022-04-10T11:11:10Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z) - SCNet: Enhancing Few-Shot Semantic Segmentation by Self-Contrastive
Background Prototypes [56.387647750094466]
Few-shot セマンティックセマンティックセマンティクスは,クエリイメージ内の新規クラスオブジェクトを,アノテーション付きの例で分割することを目的としている。
先進的なソリューションのほとんどは、各ピクセルを学習した前景のプロトタイプに合わせることでセグメンテーションを行うメトリクス学習フレームワークを利用している。
このフレームワークは、前景プロトタイプのみとのサンプルペアの不完全な構築のために偏った分類に苦しんでいます。
論文 参考訳(メタデータ) (2021-04-19T11:21:47Z) - Image Matching across Wide Baselines: From Paper to Practice [80.9424750998559]
局所的な特徴とロバストな推定アルゴリズムの包括的なベンチマークを導入する。
パイプラインのモジュール構造は、さまざまなメソッドの容易な統合、構成、組み合わせを可能にします。
適切な設定で、古典的な解決策は依然として芸術の知覚された状態を上回る可能性があることを示す。
論文 参考訳(メタデータ) (2020-03-03T15:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。