Fugu-MT 論文翻訳(概要): FocalClick: Towards Practical Interactive Image Segmentation

論文の概要: FocalClick: Towards Practical Interactive Image Segmentation

arxiv url: http://arxiv.org/abs/2204.02574v1
Date: Wed, 6 Apr 2022 04:32:01 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-07 14:09:53.485705
Title: FocalClick: Towards Practical Interactive Image Segmentation
Title（参考訳）: FocalClick: インタラクティブなイメージセグメンテーションの実現に向けて
Authors: Xi Chen, Zhiyan Zhao, Yilei Zhang, Manni Duan, Donglian Qi, Hengshuang Zhao
Abstract要約: 対話的なセグメンテーションにより、ユーザはポジティブ/ネガティブなクリックによってターゲットマスクを抽出できる。 F FocalClickは、ローカライズされた領域でマスクを予測および更新することで、両方の問題を同時に解決する。プログレッシブマージ(Progressive Merge)は、形態情報を利用して、保存場所と更新場所を決定することで、既存のマスクを効果的に洗練することができる。
参考スコア（独自算出の注目度）: 19.472284443121367
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Interactive segmentation allows users to extract target masks by making positive/negative clicks. Although explored by many previous works, there is still a gap between academic approaches and industrial needs: first, existing models are not efficient enough to work on low power devices; second, they perform poorly when used to refine preexisting masks as they could not avoid destroying the correct part. FocalClick solves both issues at once by predicting and updating the mask in localized areas. For higher efficiency, we decompose the slow prediction on the entire image into two fast inferences on small crops: a coarse segmentation on the Target Crop, and a local refinement on the Focus Crop. To make the model work with preexisting masks, we formulate a sub-task termed Interactive Mask Correction, and propose Progressive Merge as the solution. Progressive Merge exploits morphological information to decide where to preserve and where to update, enabling users to refine any preexisting mask effectively. FocalClick achieves competitive results against SOTA methods with significantly smaller FLOPs. It also shows significant superiority when making corrections on preexisting masks. Code and data will be released at github.com/XavierCHEN34/ClickSEG
Abstract（参考訳）: インタラクティブセグメンテーションでは、ポジティブ/ネガティブクリックによってターゲットマスクを抽出することができる。ひとつは、既存のモデルは低消費電力装置で作業するのに十分な効率性がないこと、もうひとつは、既存のマスクを磨く際には、正しい部分を破壊するのを防げないため、性能が良くないことである。 FocalClickは、ローカライズされた領域でマスクを予測および更新することで、両方の問題を同時に解決する。高い効率性を得るために、画像全体の遅い予測を小さな作物の2つの高速な推論に分解する:ターゲット作物の粗い部分分割とフォーカス作物の局所的な精細化である。既存のマスクでモデルを動作させるため,インタラクティブマスク補正と呼ばれるサブタスクを定式化し,プログレッシブマージを解法として提案する。プログレッシブマージ(Progressive Merge)は、形態情報を利用して、保存場所と更新場所を決定することで、既存のマスクを効果的に洗練することができる。 FocalClickは、FLOPをはるかに小さくしたSOTA法と競合する結果を得る。また、既存のマスクに補正を行う際にも顕著な優位性を示す。コードとデータはgithub.com/XavierCHEN34/ClickSEGで公開される

関連論文リスト

The Dynamic Duo of Collaborative Masking and Target for Advanced Masked Autoencoder Learning [16.05598829701769]
CMT-MAEは、教師モデルと学生モデルの両方の注意を通した線形アグリゲーションを通じて、単純な協調マスキング機構を活用する。 ImageNet-1Kで事前学習したフレームワークは、最先端の線形探索と微調整性能を実現する。
論文参考訳（メタデータ） (2024-12-23T13:37:26Z)
High-Quality Mask Tuning Matters for Open-Vocabulary Segmentation [109.19165503929992]
ここでは,CLIPのマスク分類能力を高めるために,生成されたマスクの代わりに接地トラスマスクを使用するMaskCLIP++を提案する。低コストの微調整を経て、MaskCLIP++はマルチドメインデータセットのマスク分類性能を大幅に改善した。我々は,A-847,PC-459,A-150,PC-59,PAS-20データセット上で+1.7,+2.3,+2.1,+3.1,+0.3 mIoUの性能改善を実現する。
論文参考訳（メタデータ） (2024-12-16T05:44:45Z)
Semantic Refocused Tuning for Open-Vocabulary Panoptic Segmentation [42.020470627552136]
Open-vocabulary Panoptic segmentationは、イメージを意味のあるマスクに正確に分割することを目的とした、新たなタスクである。マスク分類は、オープンボキャブ・パノプティクスのセグメンテーションにおける主要なパフォーマンスボトルネックである。オープンボキャブ・パノプティクスのセグメンテーションを大幅に強化する新しいフレームワークであるセマンティック・リフォーカス・タニングを提案する。
論文参考訳（メタデータ） (2024-09-24T17:50:28Z)
Variance-insensitive and Target-preserving Mask Refinement for Interactive Image Segmentation [68.16510297109872]
ポイントベースのインタラクティブなイメージセグメンテーションは、セマンティックセグメンテーションや画像編集といったアプリケーションにおけるマスクアノテーションの負担を軽減することができる。本稿では,ユーザ入力の少ないセグメンテーション品質を向上する新しい手法である可変無感・ターゲット保存マスクリファインメントを提案する。 GrabCut、バークレー、SBD、DAVISデータセットの実験は、インタラクティブな画像セグメンテーションにおける我々の手法の最先端性能を実証している。
論文参考訳（メタデータ） (2023-12-22T02:31:31Z)
Unmasking Anomalies in Road-Scene Segmentation [18.253109627901566]
異常セグメンテーションはアプリケーションを駆動するための重要なタスクである。本稿では,画素単位の分類からマスク分類へのシフトによるパラダイム変化を提案する。 Mask2Anomalyはマスク分類アーキテクチャに異常検出手法を統合する可能性を示した。
論文参考訳（メタデータ） (2023-07-25T08:23:10Z)
Learning to Mask and Permute Visual Tokens for Vision Transformer Pre-Training [59.923672191632065]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。 MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。以上の結果から,MaPeTはImageNet上での競合性能を実証した。
論文参考訳（メタデータ） (2023-06-12T18:12:19Z)
DiffuMask: Synthesizing Images with Pixel-level Annotations for Semantic Segmentation Using Diffusion Models [68.21154597227165]
本研究では,オフザシェルフ安定拡散モデルにより生成された合成画像の正確なセマンティックマスクを自動で取得できることを示す。我々のアプローチはDiffuMaskと呼ばれ、テキストと画像間の相互注意マップの可能性を利用しています。
論文参考訳（メタデータ） (2023-03-21T08:43:15Z)
MP-Former: Mask-Piloted Transformer for Image Segmentation [16.620469868310288]
Mask2Formerはデコーダ層間の一貫性のないマスク予測に悩まされている。本手法では,マスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスのマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスをマスマスマスマストした。
論文参考訳（メタデータ） (2023-03-13T17:57:59Z)
Efficient Masked Autoencoders with Self-Consistency [34.7076436760695]
マスク付き画像モデリング(MIM)はコンピュータビジョンにおける強力な自己教師付き事前学習手法として認識されている。本研究では,自己整合性(EMAE)を有する効率的なマスク付きオートエンコーダを提案し,事前学習効率を向上させる。 EMAEは、画像分類、オブジェクト検出、セマンティックセグメンテーションなど、さまざまな下流タスクにおける最先端の転送能力を一貫して取得する。
論文参考訳（メタデータ） (2023-02-28T09:21:12Z)
Discovering Object Masks with Transformers for Unsupervised Semantic Segmentation [75.00151934315967]
MaskDistillは教師なしセマンティックセグメンテーションのための新しいフレームワークである。我々のフレームワークは、低レベルの画像キューにラッチを付けず、オブジェクト中心のデータセットに限らない。
論文参考訳（メタデータ） (2022-06-13T17:59:43Z)
Box-Adapt: Domain-Adaptive Medical Image Segmentation using Bounding BoxSupervision [52.45336255472669]
深層学習のための弱教師付きドメイン適応設定を提案する。 Box-Adaptは、ソースドメインのきめ細かいセグナオンマスクとターゲットドメインの弱いバウンディングボックスを完全に探索する。肝セグメンテーションにおける本手法の有効性を実証する。
論文参考訳（メタデータ） (2021-08-19T01:51:04Z)
BlendMask: Top-Down Meets Bottom-Up for Instance Segmentation [103.74690082121079]
本研究では,インスタンスレベルの情報とセマンティックな情報と,低レベルの微細な粒度を効果的に組み合わせることで,マスク予測の改善を実現する。私たちの主な貢献は、トップダウンとボトムアップの両方のインスタンスセグメンテーションアプローチからインスピレーションを得たブレンダーモジュールです。 BlendMaskは、非常に少ないチャネルで、ピクセルあたりの高密度な位置感受性インスタンス機能を効果的に予測し、単一の畳み込み層で各インスタンスの注意マップを学習することができる。
論文参考訳（メタデータ） (2020-01-02T03:30:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。