論文の概要: FocalClick: Towards Practical Interactive Image Segmentation
- arxiv url: http://arxiv.org/abs/2204.02574v1
- Date: Wed, 6 Apr 2022 04:32:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-07 14:09:53.485705
- Title: FocalClick: Towards Practical Interactive Image Segmentation
- Title(参考訳): FocalClick: インタラクティブなイメージセグメンテーションの実現に向けて
- Authors: Xi Chen, Zhiyan Zhao, Yilei Zhang, Manni Duan, Donglian Qi, Hengshuang
Zhao
- Abstract要約: 対話的なセグメンテーションにより、ユーザはポジティブ/ネガティブなクリックによってターゲットマスクを抽出できる。
F FocalClickは、ローカライズされた領域でマスクを予測および更新することで、両方の問題を同時に解決する。
プログレッシブマージ(Progressive Merge)は、形態情報を利用して、保存場所と更新場所を決定することで、既存のマスクを効果的に洗練することができる。
- 参考スコア(独自算出の注目度): 19.472284443121367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interactive segmentation allows users to extract target masks by making
positive/negative clicks. Although explored by many previous works, there is
still a gap between academic approaches and industrial needs: first, existing
models are not efficient enough to work on low power devices; second, they
perform poorly when used to refine preexisting masks as they could not avoid
destroying the correct part. FocalClick solves both issues at once by
predicting and updating the mask in localized areas. For higher efficiency, we
decompose the slow prediction on the entire image into two fast inferences on
small crops: a coarse segmentation on the Target Crop, and a local refinement
on the Focus Crop. To make the model work with preexisting masks, we formulate
a sub-task termed Interactive Mask Correction, and propose Progressive Merge as
the solution. Progressive Merge exploits morphological information to decide
where to preserve and where to update, enabling users to refine any preexisting
mask effectively. FocalClick achieves competitive results against SOTA methods
with significantly smaller FLOPs. It also shows significant superiority when
making corrections on preexisting masks. Code and data will be released at
github.com/XavierCHEN34/ClickSEG
- Abstract(参考訳): インタラクティブセグメンテーションでは、ポジティブ/ネガティブクリックによってターゲットマスクを抽出することができる。
ひとつは、既存のモデルは低消費電力装置で作業するのに十分な効率性がないこと、もうひとつは、既存のマスクを磨く際には、正しい部分を破壊するのを防げないため、性能が良くないことである。
FocalClickは、ローカライズされた領域でマスクを予測および更新することで、両方の問題を同時に解決する。
高い効率性を得るために、画像全体の遅い予測を小さな作物の2つの高速な推論に分解する:ターゲット作物の粗い部分分割とフォーカス作物の局所的な精細化である。
既存のマスクでモデルを動作させるため,インタラクティブマスク補正と呼ばれるサブタスクを定式化し,プログレッシブマージを解法として提案する。
プログレッシブマージ(Progressive Merge)は、形態情報を利用して、保存場所と更新場所を決定することで、既存のマスクを効果的に洗練することができる。
FocalClickは、FLOPをはるかに小さくしたSOTA法と競合する結果を得る。
また、既存のマスクに補正を行う際にも顕著な優位性を示す。
コードとデータはgithub.com/XavierCHEN34/ClickSEGで公開される
関連論文リスト
- Semantic Refocused Tuning for Open-Vocabulary Panoptic Segmentation [42.020470627552136]
Open-vocabulary Panoptic segmentationは、イメージを意味のあるマスクに正確に分割することを目的とした、新たなタスクである。
マスク分類は、オープンボキャブ・パノプティクスのセグメンテーションにおける主要なパフォーマンスボトルネックである。
オープンボキャブ・パノプティクスのセグメンテーションを大幅に強化する新しいフレームワークであるセマンティック・リフォーカス・タニングを提案する。
論文 参考訳(メタデータ) (2024-09-24T17:50:28Z) - Variance-insensitive and Target-preserving Mask Refinement for
Interactive Image Segmentation [68.16510297109872]
ポイントベースのインタラクティブなイメージセグメンテーションは、セマンティックセグメンテーションや画像編集といったアプリケーションにおけるマスクアノテーションの負担を軽減することができる。
本稿では,ユーザ入力の少ないセグメンテーション品質を向上する新しい手法である可変無感・ターゲット保存マスクリファインメントを提案する。
GrabCut、バークレー、SBD、DAVISデータセットの実験は、インタラクティブな画像セグメンテーションにおける我々の手法の最先端性能を実証している。
論文 参考訳(メタデータ) (2023-12-22T02:31:31Z) - Unmasking Anomalies in Road-Scene Segmentation [18.253109627901566]
異常セグメンテーションはアプリケーションを駆動するための重要なタスクである。
本稿では,画素単位の分類からマスク分類へのシフトによるパラダイム変化を提案する。
Mask2Anomalyはマスク分類アーキテクチャに異常検出手法を統合する可能性を示した。
論文 参考訳(メタデータ) (2023-07-25T08:23:10Z) - Learning to Mask and Permute Visual Tokens for Vision Transformer
Pre-Training [59.923672191632065]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z) - DiffuMask: Synthesizing Images with Pixel-level Annotations for Semantic
Segmentation Using Diffusion Models [68.21154597227165]
本研究では,オフザシェルフ安定拡散モデルにより生成された合成画像の正確なセマンティックマスクを自動で取得できることを示す。
我々のアプローチはDiffuMaskと呼ばれ、テキストと画像間の相互注意マップの可能性を利用しています。
論文 参考訳(メタデータ) (2023-03-21T08:43:15Z) - MP-Former: Mask-Piloted Transformer for Image Segmentation [16.620469868310288]
Mask2Formerはデコーダ層間の一貫性のないマスク予測に悩まされている。
本手法では,マスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスのマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスをマスマスマスマストした。
論文 参考訳(メタデータ) (2023-03-13T17:57:59Z) - Efficient Masked Autoencoders with Self-Consistency [34.7076436760695]
マスク付き画像モデリング(MIM)はコンピュータビジョンにおける強力な自己教師付き事前学習手法として認識されている。
本研究では,自己整合性(EMAE)を有する効率的なマスク付きオートエンコーダを提案し,事前学習効率を向上させる。
EMAEは、画像分類、オブジェクト検出、セマンティックセグメンテーションなど、さまざまな下流タスクにおける最先端の転送能力を一貫して取得する。
論文 参考訳(メタデータ) (2023-02-28T09:21:12Z) - Discovering Object Masks with Transformers for Unsupervised Semantic
Segmentation [75.00151934315967]
MaskDistillは教師なしセマンティックセグメンテーションのための新しいフレームワークである。
我々のフレームワークは、低レベルの画像キューにラッチを付けず、オブジェクト中心のデータセットに限らない。
論文 参考訳(メタデータ) (2022-06-13T17:59:43Z) - Box-Adapt: Domain-Adaptive Medical Image Segmentation using Bounding
BoxSupervision [52.45336255472669]
深層学習のための弱教師付きドメイン適応設定を提案する。
Box-Adaptは、ソースドメインのきめ細かいセグナオンマスクとターゲットドメインの弱いバウンディングボックスを完全に探索する。
肝セグメンテーションにおける本手法の有効性を実証する。
論文 参考訳(メタデータ) (2021-08-19T01:51:04Z) - BlendMask: Top-Down Meets Bottom-Up for Instance Segmentation [103.74690082121079]
本研究では,インスタンスレベルの情報とセマンティックな情報と,低レベルの微細な粒度を効果的に組み合わせることで,マスク予測の改善を実現する。
私たちの主な貢献は、トップダウンとボトムアップの両方のインスタンスセグメンテーションアプローチからインスピレーションを得たブレンダーモジュールです。
BlendMaskは、非常に少ないチャネルで、ピクセルあたりの高密度な位置感受性インスタンス機能を効果的に予測し、単一の畳み込み層で各インスタンスの注意マップを学習することができる。
論文 参考訳(メタデータ) (2020-01-02T03:30:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。