論文の概要: FastInst: A Simple Query-Based Model for Real-Time Instance Segmentation
- arxiv url: http://arxiv.org/abs/2303.08594v1
- Date: Wed, 15 Mar 2023 13:06:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 13:51:54.436531
- Title: FastInst: A Simple Query-Based Model for Real-Time Instance Segmentation
- Title(参考訳): fastinst: リアルタイムインスタンスセグメンテーションのための単純なクエリベースモデル
- Authors: Junjie He, Pengyu Li, Yifeng Geng, Xuansong Xie
- Abstract要約: 我々はリアルタイムインスタンスセグメンテーションのためのクエリベースのフレームワークであるFastInstを紹介する。
FastInstはリアルタイムな速度(すなわち32.5 FPS)で実行でき、APは40以上である。
実験によると、FastInstは最先端のリアルタイムサービスよりも優れています。
- 参考スコア(独自算出の注目度): 17.551277435319083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent attention in instance segmentation has focused on query-based models.
Despite being non-maximum suppression (NMS)-free and end-to-end, the
superiority of these models on high-accuracy real-time benchmarks has not been
well demonstrated. In this paper, we show the strong potential of query-based
models on efficient instance segmentation algorithm designs. We present
FastInst, a simple, effective query-based framework for real-time instance
segmentation. FastInst can execute at a real-time speed (i.e., 32.5 FPS) while
yielding an AP of more than 40 (i.e., 40.5 AP) on COCO test-dev without bells
and whistles. Specifically, FastInst follows the meta-architecture of recently
introduced Mask2Former. Its key designs include instance activation-guided
queries, dual-path update strategy, and ground truth mask-guided learning,
which enable us to use lighter pixel decoders, fewer Transformer decoder
layers, while achieving better performance. The experiments show that FastInst
outperforms most state-of-the-art real-time counterparts, including strong
fully convolutional baselines, in both speed and accuracy. Code can be found at
https://github.com/junjiehe96/FastInst .
- Abstract(参考訳): インスタンスセグメンテーションにおける近年の注目は、クエリベースのモデルに焦点を当てている。
非最大抑制(nms)とエンドツーエンドであるにもかかわらず、高精度リアルタイムベンチマークにおけるこれらのモデルの優位性はよく示されていない。
本稿では,効率的なインスタンスセグメンテーションアルゴリズム設計におけるクエリベースモデルの可能性を示す。
リアルタイムインスタンスセグメンテーションのための、シンプルで効果的なクエリベースのフレームワークであるfastinstを提案する。
FastInstはリアルタイムな速度(すなわち32.5 FPS)で実行でき、ベルやホイッスルなしでCOCOテストデブ上で40以上のAP(すなわち40.5 AP)を出力する。
具体的には、FastInstは、最近導入されたMask2Formerのメタアーキテクチャに従う。
その重要な設計には、インスタンスアクティベーション誘導クエリ、デュアルパス更新ストラテジー、そして、より軽いピクセルデコーダ、より少ないトランスフォーマーデコーダレイヤの使用を可能にし、パフォーマンスを向上できるグランド・トゥルーションマスクガイド学習が含まれる。
実験によれば、fastinstはスピードと正確性の両方において、強い畳み込みのベースラインを含む最先端のリアルタイムシステムよりも優れています。
コードはhttps://github.com/junjiehe96/FastInst にある。
関連論文リスト
- Efficient Temporal Action Segmentation via Boundary-aware Query Voting [51.92693641176378]
BaFormerは境界対応のTransformerネットワークで、各ビデオセグメントをインスタンストークンとしてトークン化する。
BaFormerは実行時間の6%しか利用せず、計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-05-25T00:44:13Z) - Sparse Instance Activation for Real-Time Instance Segmentation [72.23597664935684]
本稿では,リアルタイムインスタンスセグメンテーションのための概念的・効率的・完全畳み込み型フレームワークを提案する。
SparseInstは非常に高速な推論速度を持ち、COCOベンチマークで40 FPSと37.9 APを達成した。
論文 参考訳(メタデータ) (2022-03-24T03:15:39Z) - FastSeq: Make Sequence Generation Faster [20.920579109726024]
我々は,精度を損なわずにシーケンス生成を高速化するFastSeqフレームワークを開発した。
様々なモデルで広く使われているベンチマークの結果は、4-9倍の推論速度向上を示す。
FastSeqは単純な1行のコード変更で簡単に使える。
論文 参考訳(メタデータ) (2021-06-08T22:25:28Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - QueryInst: Parallelly Supervised Mask Query for Instance Segmentation [53.5613957875507]
本稿では,動的マスクヘッドの並列監視によるクエリベースインスタンスセグメンテーション手法であるqueryinstを提案する。
COCO、CityScapes、YouTube-VISの3つの挑戦的なベンチマークについて広範な実験を行っています。
QueryInstは、すべてのオンラインVISアプローチの中で最高のパフォーマンスを達成し、十分なスピード精度のトレードオフを打ち負かす。
論文 参考訳(メタデータ) (2021-05-05T08:38:25Z) - Finding Fast Transformers: One-Shot Neural Architecture Search by
Component Composition [11.6409723227448]
トランスフォーマーベースのモデルは、自然言語処理における多くのタスクにおいて最先端の結果を得た。
モデル品質を維持しつつ,高速なモデル探索を行うアルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-08-15T23:12:25Z) - Approximated Bilinear Modules for Temporal Modeling [116.6506871576514]
CNNの2層は補助ブランチサンプリングを追加することで、時間的双線形モジュールに変換できる。
我々のモデルは、事前トレーニングなしで、Something v1とv2データセットの最先端メソッドよりも優れている。
論文 参考訳(メタデータ) (2020-07-25T09:07:35Z) - Learning Fast and Robust Target Models for Video Object Segmentation [83.3382606349118]
ビデオオブジェクトセグメンテーション(VOS)は、ターゲットオブジェクトを定義する初期マスクがテスト時にのみ与えられるため、非常に難しい問題である。
それまでのほとんどの場合、第1フレーム上のファイン・チューン・セグメンテーション・ネットワークにアプローチし、非現実的なフレームレートとオーバーフィッティングのリスクをもたらす。
本稿では,2つのネットワークコンポーネントからなる新しいVOSアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-02-27T21:58:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。