論文の概要: DynaMITe: Dynamic Query Bootstrapping for Multi-object Interactive
Segmentation Transformer
- arxiv url: http://arxiv.org/abs/2304.06668v2
- Date: Tue, 22 Aug 2023 12:53:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 21:13:25.731060
- Title: DynaMITe: Dynamic Query Bootstrapping for Multi-object Interactive
Segmentation Transformer
- Title(参考訳): DynaMITe: 多目的対話型セグメンテーショントランスのための動的クエリブートストラップ
- Authors: Amit Kumar Rana, Sabarinath Mahadevan, Alexander Hermans, and Bastian
Leibe
- Abstract要約: 最先端のインスタンスセグメンテーション手法の多くは、訓練のために大量のピクセル精度のグランドトルースに依存している。
ユーザインタラクションを時間的クエリとして表現するDynaMITeという,より効率的なアプローチを導入する。
我々のアーキテクチャはまた、改善中にイメージ機能を再計算する必要をなくし、単一のイメージに複数のインスタンスをセグメント化するためのインタラクションを少なくする。
- 参考スコア(独自算出の注目度): 58.95404214273222
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most state-of-the-art instance segmentation methods rely on large amounts of
pixel-precise ground-truth annotations for training, which are expensive to
create. Interactive segmentation networks help generate such annotations based
on an image and the corresponding user interactions such as clicks. Existing
methods for this task can only process a single instance at a time and each
user interaction requires a full forward pass through the entire deep network.
We introduce a more efficient approach, called DynaMITe, in which we represent
user interactions as spatio-temporal queries to a Transformer decoder with a
potential to segment multiple object instances in a single iteration. Our
architecture also alleviates any need to re-compute image features during
refinement, and requires fewer interactions for segmenting multiple instances
in a single image when compared to other methods. DynaMITe achieves
state-of-the-art results on multiple existing interactive segmentation
benchmarks, and also on the new multi-instance benchmark that we propose in
this paper.
- Abstract(参考訳): 最先端のインスタンスセグメンテーション手法の多くは、大量のピクセル精度のグランドトルースアノテーションをトレーニングに頼っている。
インタラクティブセグメンテーションネットワークは、画像とクリックのような対応するユーザインタラクションに基づいて、そのようなアノテーションを生成する。
このタスクの既存のメソッドは一度に1つのインスタンスしか処理できず、各ユーザーインタラクションはディープネットワーク全体を通過する完全なフォワードパスを必要とします。
我々は,複数のオブジェクトインスタンスを単一イテレーションでセグメント化可能なTransformerデコーダに対して,ユーザインタラクションを時空間クエリとして表現するDynaMITeという,より効率的なアプローチを導入する。
我々のアーキテクチャはまた、改善中に画像機能を再計算する必要をなくし、他の方法と比較して、1つの画像に複数のインスタンスを分割する際のインタラクションを少なくする。
DynaMITeは、複数の既存のインタラクティブセグメンテーションベンチマークと、本論文で提案する新しいマルチインスタンスベンチマークに対して、最先端の結果を達成する。
関連論文リスト
- A Simple Image Segmentation Framework via In-Context Examples [59.319920526160466]
本稿では,テキスト内例を利用したシンプルな画像フレームワークであるSINEを提案する。
In-context Interactionモジュールを導入し、インコンテキスト情報を補完し、ターゲット画像とインコンテキストの例との相関関係を生成する。
様々なセグメンテーションタスクの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-10-07T08:59:05Z) - Learning from Exemplars for Interactive Image Segmentation [15.37506525730218]
同一カテゴリにおける1つのオブジェクトと複数のオブジェクトの両方に対して、新しい対話的セグメンテーションフレームワークを導入する。
当社のモデルでは,ターゲットIoUの85%と90%を達成するために,クリック数が2回削減されるため,ユーザの労力を約15%削減する。
論文 参考訳(メタデータ) (2024-06-17T12:38:01Z) - IFSENet : Harnessing Sparse Iterations for Interactive Few-shot Segmentation Excellence [2.822194296769473]
新しいクラスのセグメンテーションを学ぶために必要な画像の数を減らします。
インタラクティブなセグメンテーション技術は、一度に1つのオブジェクトのセグメンテーションを漸進的に改善することのみに焦点を当てます。
2つの概念を組み合わせることで、新しいクラスのセグメンテーションモデルをトレーニングするのに要する労力を大幅に削減する。
論文 参考訳(メタデータ) (2024-03-22T10:15:53Z) - OMG-Seg: Is One Model Good Enough For All Segmentation? [83.17068644513144]
OMG-Segは、タスク固有のクエリと出力を持つトランスフォーマーベースのエンコーダデコーダアーキテクチャである。
OMG-Segは10以上の異なるセグメンテーションタスクをサポートできるが、計算とパラメータのオーバーヘッドを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-01-18T18:59:34Z) - Multi-interactive Feature Learning and a Full-time Multi-modality
Benchmark for Image Fusion and Segmentation [66.15246197473897]
多モード画像融合とセグメンテーションは、自律走行とロボット操作において重要な役割を果たす。
画像融合とtextbfSegmentation のための textbfMulti-textbfinteractive textbfFeature Learning アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-04T01:03:58Z) - InterFormer: Real-time Interactive Image Segmentation [80.45763765116175]
インタラクティブなイメージセグメンテーションにより、アノテータはセグメンテーションタスクのためのピクセルレベルのアノテーションを効率的に実行することができる。
既存のインタラクティブセグメンテーションパイプラインは、インタラクティブモデルの非効率な計算に悩まされている。
これらの問題に対処するための新しいパイプラインに従うInterFormerという手法を提案する。
論文 参考訳(メタデータ) (2023-04-06T08:57:00Z) - Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-04-22T15:32:46Z) - Multi-Stage Fusion for One-Click Segmentation [20.00726292545008]
対話型セグメンテーションのための多段階ガイダンスフレームワークを提案する。
提案フレームワークは,早期融合フレームワークと比較してパラメータ数の増加は無視できない。
論文 参考訳(メタデータ) (2020-10-19T17:07:40Z) - Localized Interactive Instance Segmentation [24.55415554455844]
本稿では,ユーザインタラクションがオブジェクトの近接に制限されるクリック方式を提案する。
提案手法の有効性を,詳細な実験により示す。
論文 参考訳(メタデータ) (2020-10-18T23:24:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。