論文の概要: FocalClick: Towards Practical Interactive Image Segmentation
- arxiv url: http://arxiv.org/abs/2204.02574v1
- Date: Wed, 6 Apr 2022 04:32:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-07 14:09:53.485705
- Title: FocalClick: Towards Practical Interactive Image Segmentation
- Title(参考訳): FocalClick: インタラクティブなイメージセグメンテーションの実現に向けて
- Authors: Xi Chen, Zhiyan Zhao, Yilei Zhang, Manni Duan, Donglian Qi, Hengshuang
Zhao
- Abstract要約: 対話的なセグメンテーションにより、ユーザはポジティブ/ネガティブなクリックによってターゲットマスクを抽出できる。
F FocalClickは、ローカライズされた領域でマスクを予測および更新することで、両方の問題を同時に解決する。
プログレッシブマージ(Progressive Merge)は、形態情報を利用して、保存場所と更新場所を決定することで、既存のマスクを効果的に洗練することができる。
- 参考スコア(独自算出の注目度): 19.472284443121367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interactive segmentation allows users to extract target masks by making
positive/negative clicks. Although explored by many previous works, there is
still a gap between academic approaches and industrial needs: first, existing
models are not efficient enough to work on low power devices; second, they
perform poorly when used to refine preexisting masks as they could not avoid
destroying the correct part. FocalClick solves both issues at once by
predicting and updating the mask in localized areas. For higher efficiency, we
decompose the slow prediction on the entire image into two fast inferences on
small crops: a coarse segmentation on the Target Crop, and a local refinement
on the Focus Crop. To make the model work with preexisting masks, we formulate
a sub-task termed Interactive Mask Correction, and propose Progressive Merge as
the solution. Progressive Merge exploits morphological information to decide
where to preserve and where to update, enabling users to refine any preexisting
mask effectively. FocalClick achieves competitive results against SOTA methods
with significantly smaller FLOPs. It also shows significant superiority when
making corrections on preexisting masks. Code and data will be released at
github.com/XavierCHEN34/ClickSEG
- Abstract(参考訳): インタラクティブセグメンテーションでは、ポジティブ/ネガティブクリックによってターゲットマスクを抽出することができる。
ひとつは、既存のモデルは低消費電力装置で作業するのに十分な効率性がないこと、もうひとつは、既存のマスクを磨く際には、正しい部分を破壊するのを防げないため、性能が良くないことである。
FocalClickは、ローカライズされた領域でマスクを予測および更新することで、両方の問題を同時に解決する。
高い効率性を得るために、画像全体の遅い予測を小さな作物の2つの高速な推論に分解する:ターゲット作物の粗い部分分割とフォーカス作物の局所的な精細化である。
既存のマスクでモデルを動作させるため,インタラクティブマスク補正と呼ばれるサブタスクを定式化し,プログレッシブマージを解法として提案する。
プログレッシブマージ(Progressive Merge)は、形態情報を利用して、保存場所と更新場所を決定することで、既存のマスクを効果的に洗練することができる。
FocalClickは、FLOPをはるかに小さくしたSOTA法と競合する結果を得る。
また、既存のマスクに補正を行う際にも顕著な優位性を示す。
コードとデータはgithub.com/XavierCHEN34/ClickSEGで公開される
関連論文リスト
- Variance-insensitive and Target-preserving Mask Refinement for
Interactive Image Segmentation [68.16510297109872]
ポイントベースのインタラクティブなイメージセグメンテーションは、セマンティックセグメンテーションや画像編集といったアプリケーションにおけるマスクアノテーションの負担を軽減することができる。
本稿では,ユーザ入力の少ないセグメンテーション品質を向上する新しい手法である可変無感・ターゲット保存マスクリファインメントを提案する。
GrabCut、バークレー、SBD、DAVISデータセットの実験は、インタラクティブな画像セグメンテーションにおける我々の手法の最先端性能を実証している。
論文 参考訳(メタデータ) (2023-12-22T02:31:31Z) - Unmasking Anomalies in Road-Scene Segmentation [18.253109627901566]
異常セグメンテーションはアプリケーションを駆動するための重要なタスクである。
本稿では,画素単位の分類からマスク分類へのシフトによるパラダイム変化を提案する。
Mask2Anomalyはマスク分類アーキテクチャに異常検出手法を統合する可能性を示した。
論文 参考訳(メタデータ) (2023-07-25T08:23:10Z) - Learning to Mask and Permute Visual Tokens for Vision Transformer
Pre-Training [59.923672191632065]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z) - DiffuMask: Synthesizing Images with Pixel-level Annotations for Semantic
Segmentation Using Diffusion Models [68.21154597227165]
本研究では,オフザシェルフ安定拡散モデルにより生成された合成画像の正確なセマンティックマスクを自動で取得できることを示す。
我々のアプローチはDiffuMaskと呼ばれ、テキストと画像間の相互注意マップの可能性を利用しています。
論文 参考訳(メタデータ) (2023-03-21T08:43:15Z) - MP-Former: Mask-Piloted Transformer for Image Segmentation [16.620469868310288]
Mask2Formerはデコーダ層間の一貫性のないマスク予測に悩まされている。
本手法では,マスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスのマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスをマスマスマスマストした。
論文 参考訳(メタデータ) (2023-03-13T17:57:59Z) - Exploiting Shape Cues for Weakly Supervised Semantic Segmentation [15.791415215216029]
弱教師付きセマンティックセマンティックセグメンテーション (WSSS) は、画像レベルのラベルのみをトレーニング用として、画素単位のクラス予測を生成することを目的としている。
畳み込みニューラルネットワーク(CNN)のテクスチャバイアス特性を補うために形状情報を活用することを提案する。
我々は、クラスと色親和性の両方を考慮した新しい改良手法により、オンライン方式で予測をさらに洗練する。
論文 参考訳(メタデータ) (2022-08-08T17:25:31Z) - Discovering Object Masks with Transformers for Unsupervised Semantic
Segmentation [75.00151934315967]
MaskDistillは教師なしセマンティックセグメンテーションのための新しいフレームワークである。
我々のフレームワークは、低レベルの画像キューにラッチを付けず、オブジェクト中心のデータセットに限らない。
論文 参考訳(メタデータ) (2022-06-13T17:59:43Z) - CYBORGS: Contrastively Bootstrapping Object Representations by Grounding
in Segmentation [22.89327564484357]
本稿では,表現とセグメンテーションの協調学習を通じて,この目標を達成するフレームワークを提案する。
これら2つのコンポーネントを反復することにより、セグメンテーション情報のコントラスト更新を行い、プレトレーニングを通じてセグメンテーションを改善する。
論文 参考訳(メタデータ) (2022-03-17T14:20:05Z) - Box-Adapt: Domain-Adaptive Medical Image Segmentation using Bounding
BoxSupervision [52.45336255472669]
深層学習のための弱教師付きドメイン適応設定を提案する。
Box-Adaptは、ソースドメインのきめ細かいセグナオンマスクとターゲットドメインの弱いバウンディングボックスを完全に探索する。
肝セグメンテーションにおける本手法の有効性を実証する。
論文 参考訳(メタデータ) (2021-08-19T01:51:04Z) - BlendMask: Top-Down Meets Bottom-Up for Instance Segmentation [103.74690082121079]
本研究では,インスタンスレベルの情報とセマンティックな情報と,低レベルの微細な粒度を効果的に組み合わせることで,マスク予測の改善を実現する。
私たちの主な貢献は、トップダウンとボトムアップの両方のインスタンスセグメンテーションアプローチからインスピレーションを得たブレンダーモジュールです。
BlendMaskは、非常に少ないチャネルで、ピクセルあたりの高密度な位置感受性インスタンス機能を効果的に予測し、単一の畳み込み層で各インスタンスの注意マップを学習することができる。
論文 参考訳(メタデータ) (2020-01-02T03:30:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。