論文の概要: Mask Frozen-DETR: High Quality Instance Segmentation with One GPU
- arxiv url: http://arxiv.org/abs/2308.03747v1
- Date: Mon, 7 Aug 2023 17:53:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 12:35:56.330560
- Title: Mask Frozen-DETR: High Quality Instance Segmentation with One GPU
- Title(参考訳): Mask Frozen-DETR: 1GPUによる高品質インスタンスセグメンテーション
- Authors: Zhanhao Liang, Yuhui Yuan
- Abstract要約: 我々は,既存のDETRベースのオブジェクト検出モデルを強力なインスタンスセグメンテーションモデルに変換することができるMask Frozen-DETRを紹介した。
注目すべきは、テストデブ分割における性能の点で、最先端のインスタンスセグメンテーション手法であるMask DINOより優れていることである。
当社の実験はすべて、16GBのメモリを持つ1台のTesla V100 GPUを使用してトレーニングすることが可能で、提案したフレームワークの大幅な効率性を実証しています。
- 参考スコア(独自算出の注目度): 9.289846887298852
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we aim to study how to build a strong instance segmenter with
minimal training time and GPUs, as opposed to the majority of current
approaches that pursue more accurate instance segmenter by building more
advanced frameworks at the cost of longer training time and higher GPU
requirements. To achieve this, we introduce a simple and general framework,
termed Mask Frozen-DETR, which can convert any existing DETR-based object
detection model into a powerful instance segmentation model. Our method only
requires training an additional lightweight mask network that predicts instance
masks within the bounding boxes given by a frozen DETR-based object detector.
Remarkably, our method outperforms the state-of-the-art instance segmentation
method Mask DINO in terms of performance on the COCO test-dev split (55.3% vs.
54.7%) while being over 10X times faster to train. Furthermore, all of our
experiments can be trained using only one Tesla V100 GPU with 16 GB of memory,
demonstrating the significant efficiency of our proposed framework.
- Abstract(参考訳): 本稿では、より高度なフレームワークを構築し、より長いトレーニング時間とより高いGPU要求を犠牲にして、より正確なインスタンスセグメンタを追求する現在のアプローチとは対照的に、最小限のトレーニング時間とGPUで強力なインスタンスセグメンタを構築する方法を検討することを目的とする。
これを実現するために,既存のDETRに基づくオブジェクト検出モデルを強力なインスタンスセグメンテーションモデルに変換する,Mask Frozen-DETRと呼ばれるシンプルで汎用的なフレームワークを導入する。
本手法では, 凍結したDETR型物体検出器によって与えられる拘束箱内のインスタンスマスクを予測する軽量マスクネットワークを訓練するのみである。
また,本手法は,COCOテストデブスプリット(55.3%対54.7%)の性能において,トレーニングの10倍以上の速度で,最先端のインスタンスセグメンテーション手法であるMask DINOよりも優れていた。
さらに、我々の実験はすべて、16GBのメモリを持つ1台のTesla V100 GPUでトレーニングすることができ、提案したフレームワークの大幅な効率性を示している。
関連論文リスト
- MaskUno: Switch-Split Block For Enhancing Instance Segmentation [0.0]
マスク予測を洗練されたROIを処理し、それらを分類し、特定のマスク予測者に割り当てるスイッチスプリットブロックに置き換えることを提案する。
平均平均精度(mAP)が2.03%上昇し,80クラスにおいて高い成績を示した。
論文 参考訳(メタデータ) (2024-07-31T10:12:14Z) - SiamMask: A Framework for Fast Online Object Tracking and Segmentation [96.61632757952292]
SiamMaskは、ビジュアルオブジェクトトラッキングとビデオオブジェクトセグメンテーションの両方を、同じシンプルな方法でリアルタイムで実行するためのフレームワークである。
マルチタスクモデルを簡単に再利用することで、複数のオブジェクトのトラッキングとセグメンテーションを扱うためのフレームワークを拡張することができることを示す。
ビデオオブジェクトセグメンテーションベンチマークでは、高速で競合性能を示すと同時に、ビジュアルオブジェクト追跡ベンチマークでは、リアルタイムに最先端の結果が得られる。
論文 参考訳(メタデータ) (2022-07-05T14:47:17Z) - Mask DINO: Towards A Unified Transformer-based Framework for Object
Detection and Segmentation [15.826822450977271]
Mask DINOは統合されたオブジェクト検出とセグメンテーションフレームワークである。
Mask DINOはシンプルで、効率的で、スケーラブルで、共同で大規模な検出とセグメンテーションデータセットの恩恵を受けています。
論文 参考訳(メタデータ) (2022-06-06T17:57:25Z) - SOLO: A Simple Framework for Instance Segmentation [84.00519148562606]
インスタンスカテゴリ"は、インスタンスの場所に応じて、インスタンス内の各ピクセルにカテゴリを割り当てる。
SOLO"は、強力なパフォーマンスを備えたインスタンスセグメンテーションのための、シンプルで、直接的で、高速なフレームワークです。
提案手法は, 高速化と精度の両面から, 実例分割の最先端結果を実現する。
論文 参考訳(メタデータ) (2021-06-30T09:56:54Z) - Mask Encoding for Single Shot Instance Segmentation [97.99956029224622]
マスクエンコーディングに基づくインスタンスセグメンテーション(MEInst)と呼ばれる単純なシングルショットインスタンスセグメンテーションフレームワークを提案する。
二次元マスクを直接予測する代わりに、MEInstはそれをコンパクトで固定的な表現ベクトルに蒸留する。
よりシンプルでフレキシブルな一段階のインスタンスセグメンテーション手法は、競合性能も達成できることを示す。
論文 参考訳(メタデータ) (2020-03-26T02:51:17Z) - PointINS: Point-based Instance Segmentation [117.38579097923052]
POI(Point-of-Interest)機能によるインスタンスセグメンテーションにおけるマスク表現は、各インスタンスの高次元マスク機能を学ぶには、計算負荷が重いため、難しい。
本稿では、このマスク表現学習タスクを2つの抽出可能なモジュールに分解するインスタンス認識畳み込みを提案する。
インスタンス認識の畳み込みとともに、単純で実用的なインスタンスセグメンテーションアプローチであるPointINSを提案する。
論文 参考訳(メタデータ) (2020-03-13T08:24:58Z) - Learning Fast and Robust Target Models for Video Object Segmentation [83.3382606349118]
ビデオオブジェクトセグメンテーション(VOS)は、ターゲットオブジェクトを定義する初期マスクがテスト時にのみ与えられるため、非常に難しい問題である。
それまでのほとんどの場合、第1フレーム上のファイン・チューン・セグメンテーション・ネットワークにアプローチし、非現実的なフレームレートとオーバーフィッティングのリスクをもたらす。
本稿では,2つのネットワークコンポーネントからなる新しいVOSアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-02-27T21:58:06Z) - BlendMask: Top-Down Meets Bottom-Up for Instance Segmentation [103.74690082121079]
本研究では,インスタンスレベルの情報とセマンティックな情報と,低レベルの微細な粒度を効果的に組み合わせることで,マスク予測の改善を実現する。
私たちの主な貢献は、トップダウンとボトムアップの両方のインスタンスセグメンテーションアプローチからインスピレーションを得たブレンダーモジュールです。
BlendMaskは、非常に少ないチャネルで、ピクセルあたりの高密度な位置感受性インスタンス機能を効果的に予測し、単一の畳み込み層で各インスタンスの注意マップを学習することができる。
論文 参考訳(メタデータ) (2020-01-02T03:30:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。