論文の概要: InterFormer: Real-time Interactive Image Segmentation
- arxiv url: http://arxiv.org/abs/2304.02942v2
- Date: Wed, 9 Aug 2023 08:41:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 17:37:13.341034
- Title: InterFormer: Real-time Interactive Image Segmentation
- Title(参考訳): InterFormer:リアルタイムインタラクティブイメージセグメンテーション
- Authors: You Huang, Hao Yang, Ke Sun, Shengchuan Zhang, Liujuan Cao, Guannan
Jiang, Rongrong Ji
- Abstract要約: インタラクティブなイメージセグメンテーションにより、アノテータはセグメンテーションタスクのためのピクセルレベルのアノテーションを効率的に実行することができる。
既存のインタラクティブセグメンテーションパイプラインは、インタラクティブモデルの非効率な計算に悩まされている。
これらの問題に対処するための新しいパイプラインに従うInterFormerという手法を提案する。
- 参考スコア(独自算出の注目度): 80.45763765116175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interactive image segmentation enables annotators to efficiently perform
pixel-level annotation for segmentation tasks. However, the existing
interactive segmentation pipeline suffers from inefficient computations of
interactive models because of the following two issues. First, annotators'
later click is based on models' feedback of annotators' former click. This
serial interaction is unable to utilize model's parallelism capabilities.
Second, in each interaction step, the model handles the invariant image along
with the sparse variable clicks, resulting in a process that's highly
repetitive and redundant. For efficient computations, we propose a method named
InterFormer that follows a new pipeline to address these issues. InterFormer
extracts and preprocesses the computationally time-consuming part i.e. image
processing from the existing process. Specifically, InterFormer employs a large
vision transformer (ViT) on high-performance devices to preprocess images in
parallel, and then uses a lightweight module called interactive multi-head self
attention (I-MSA) for interactive segmentation. Furthermore, the I-MSA module's
deployment on low-power devices extends the practical application of
interactive segmentation. The I-MSA module utilizes the preprocessed features
to efficiently response to the annotator inputs in real-time. The experiments
on several datasets demonstrate the effectiveness of InterFormer, which
outperforms previous interactive segmentation models in terms of computational
efficiency and segmentation quality, achieve real-time high-quality interactive
segmentation on CPU-only devices. The code is available at
https://github.com/YouHuang67/InterFormer.
- Abstract(参考訳): インタラクティブな画像セグメンテーションにより、アノテーションはセグメンテーションタスクのピクセルレベルのアノテーションを効率的に実行することができる。
しかし、既存のインタラクティブセグメンテーションパイプラインは、以下の2つの問題により、インタラクティブモデルの非効率な計算に苦しむ。
第一に、アノテーションの後のクリックは、アノテーションの前のクリックに対するモデルのフィードバックに基づいている。
このシリアル相互作用はモデルの並列性を利用できない。
次に、各インタラクションステップにおいて、モデルはスパース変数クリックとともに不変画像を処理し、非常に反復的で冗長なプロセスをもたらす。
そこで我々は,これらの問題に対処する新しいパイプラインに従うInterFormerという手法を提案する。
インターフォーマは、計算時間消費部、すなわち既存のプロセスから画像処理を抽出・前処理する。
具体的には、InterFormerは高速デバイスに大きな視覚変換器(ViT)を並列に前処理し、インタラクティブなセグメンテーションのためにインタラクティブなマルチヘッド自己注意(I-MSA)と呼ばれる軽量モジュールを使用する。
さらに、I-MSAモジュールの低消費電力デバイスへの展開は、インタラクティブセグメンテーションの実践的応用を拡張している。
I-MSAモジュールは、前処理した機能を利用して、リアルタイムでアノテータ入力に効率的に応答する。
複数のデータセットにおける実験は、計算効率とセグメンテーション品質の観点から従来の対話型セグメンテーションモデルを上回るinterformerの有効性を示し、cpuのみのデバイスでリアルタイムな高品質なインタラクティブセグメンテーションを実現する。
コードはhttps://github.com/youhuang67/interformerで入手できる。
関連論文リスト
- Learning from Exemplars for Interactive Image Segmentation [15.37506525730218]
同一カテゴリにおける1つのオブジェクトと複数のオブジェクトの両方に対して、新しい対話的セグメンテーションフレームワークを導入する。
当社のモデルでは,ターゲットIoUの85%と90%を達成するために,クリック数が2回削減されるため,ユーザの労力を約15%削減する。
論文 参考訳(メタデータ) (2024-06-17T12:38:01Z) - Training-Free Robust Interactive Video Object Segmentation [82.05906654403684]
対話型ビデオオブジェクトセグメンテーション(I-PT)のためのトレーニングフリープロンプトトラッキングフレームワークを提案する。
スパースポイントとボックストラッキングを共同で採用し、不安定なポイントをフィルタリングし、オブジェクトワイズ情報をキャプチャします。
我々のフレームワークは、人気のあるVOSデータセット上で、ゼロショットビデオセグメンテーションの堅牢な結果を示してきた。
論文 参考訳(メタデータ) (2024-06-08T14:25:57Z) - FocSAM: Delving Deeply into Focused Objects in Segmenting Anything [58.042354516491024]
Segment Anything Model (SAM)はセグメンテーションモデルにおいて注目すべきマイルストーンである。
2つの重要な側面に基づいてパイプラインを再設計したFocSAMを提案する。
まず,Dwin-MSA(Dynamic Window Multi-head Self-Attention)を提案する。
次に,Pixel-wise Dynamic ReLU (P-DyReLU)を提案する。
論文 参考訳(メタデータ) (2024-05-29T02:34:13Z) - OMG-Seg: Is One Model Good Enough For All Segmentation? [83.17068644513144]
OMG-Segは、タスク固有のクエリと出力を持つトランスフォーマーベースのエンコーダデコーダアーキテクチャである。
OMG-Segは10以上の異なるセグメンテーションタスクをサポートできるが、計算とパラメータのオーバーヘッドを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-01-18T18:59:34Z) - DynaMITe: Dynamic Query Bootstrapping for Multi-object Interactive
Segmentation Transformer [58.95404214273222]
最先端のインスタンスセグメンテーション手法の多くは、訓練のために大量のピクセル精度のグランドトルースに依存している。
ユーザインタラクションを時間的クエリとして表現するDynaMITeという,より効率的なアプローチを導入する。
我々のアーキテクチャはまた、改善中にイメージ機能を再計算する必要をなくし、単一のイメージに複数のインスタンスをセグメント化するためのインタラクションを少なくする。
論文 参考訳(メタデータ) (2023-04-13T16:57:02Z) - Modular Interactive Video Object Segmentation: Interaction-to-Mask,
Propagation and Difference-Aware Fusion [68.45737688496654]
本稿では,マスク間相互作用とマスク伝搬を分離するモジュール型対話型VOSフレームワークを提案する。
提案手法は,フレーム間インタラクションを少なくしつつ,現在の最先端アルゴリズムよりも優れることを示す。
論文 参考訳(メタデータ) (2021-03-14T14:39:08Z) - Reviving Iterative Training with Mask Guidance for Interactive
Segmentation [8.271859911016719]
クリックに基づくインタラクティブセグメンテーションに関する最近の研究は、様々な推論時間最適化スキームを用いて最先端の結果を示している。
従来のステップのセグメンテーションマスクを用いた,クリックベースのインタラクティブセグメンテーションのための簡単なフィードフォワードモデルを提案する。
COCOとLVISの組み合わせで訓練されたモデルと、多様で高品質のアノテーションは、既存のすべてのモデルよりも優れたパフォーマンスを示しています。
論文 参考訳(メタデータ) (2021-02-12T15:44:31Z) - Multi-Stage Fusion for One-Click Segmentation [20.00726292545008]
対話型セグメンテーションのための多段階ガイダンスフレームワークを提案する。
提案フレームワークは,早期融合フレームワークと比較してパラメータ数の増加は無視できない。
論文 参考訳(メタデータ) (2020-10-19T17:07:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。