論文の概要: X-Paste: Revisiting Scalable Copy-Paste for Instance Segmentation using
CLIP and StableDiffusion
- arxiv url: http://arxiv.org/abs/2212.03863v2
- Date: Wed, 31 May 2023 14:57:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 03:50:05.564755
- Title: X-Paste: Revisiting Scalable Copy-Paste for Instance Segmentation using
CLIP and StableDiffusion
- Title(参考訳): X-Paste: CLIPとStableDiffusionを使ったインスタンスセグメンテーションのためのスケーラブルコピーペーストの再検討
- Authors: Hanqing Zhao and Dianmo Sheng and Jianmin Bao and Dongdong Chen and
Dong Chen and Fang Wen and Lu Yuan and Ce Liu and Wenbo Zhou and Qi Chu and
Weiming Zhang and Nenghai Yu
- Abstract要約: Copy-Pasteは、インスタンスセグメンテーションのためのシンプルで効果的なデータ拡張戦略である。
新たに登場したゼロショット認識モデルのパワーで、Copy-Pasteを大規模に再考する。
X-Pasteは、Swin-Lをバックボーンとして、強力なベースラインであるCenterNet2よりも大幅に改善されている。
- 参考スコア(独自算出の注目度): 137.84635386962395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Copy-Paste is a simple and effective data augmentation strategy for instance
segmentation. By randomly pasting object instances onto new background images,
it creates new training data for free and significantly boosts the segmentation
performance, especially for rare object categories. Although diverse,
high-quality object instances used in Copy-Paste result in more performance
gain, previous works utilize object instances either from human-annotated
instance segmentation datasets or rendered from 3D object models, and both
approaches are too expensive to scale up to obtain good diversity. In this
paper, we revisit Copy-Paste at scale with the power of newly emerged zero-shot
recognition models (e.g., CLIP) and text2image models (e.g., StableDiffusion).
We demonstrate for the first time that using a text2image model to generate
images or zero-shot recognition model to filter noisily crawled images for
different object categories is a feasible way to make Copy-Paste truly
scalable. To make such success happen, we design a data acquisition and
processing framework, dubbed ``X-Paste", upon which a systematic study is
conducted. On the LVIS dataset, X-Paste provides impressive improvements over
the strong baseline CenterNet2 with Swin-L as the backbone. Specifically, it
archives +2.6 box AP and +2.1 mask AP gains on all classes and even more
significant gains with +6.8 box AP, +6.5 mask AP on long-tail classes. Our code
and models are available at https://github.com/yoctta/XPaste.
- Abstract(参考訳): Copy-Pasteは、インスタンスセグメンテーションのためのシンプルで効果的なデータ拡張戦略である。
オブジェクトインスタンスを新しいバックグラウンドイメージにランダムにペーストすることで、新しいトレーニングデータを無償で生成し、特に稀なオブジェクトカテゴリにおいてセグメンテーションのパフォーマンスを大幅に向上する。
コピーペーストで使用される多様で高品質なオブジェクトインスタンスは、より多くのパフォーマンス向上をもたらすが、以前の作品は、人間の注釈付きインスタンスセグメンテーションデータセットからのオブジェクトインスタンスや、3dオブジェクトモデルからのレンダリングを利用する。
本稿では,新たに出現したゼロショット認識モデル(クリップなど)とtext2画像モデル(stablediffusionなど)を用いて,コピーペーストを大規模に再検討する。
我々は、text2imageモデルを用いて画像やゼロショット認識モデルを生成し、さまざまなオブジェクトカテゴリに対してノイズの多いクロール画像をフィルタリングすることが、Copy-Pasteを真にスケーラブルにするための実現可能な方法であることを示す。
このような成功を収めるために,系統的な研究を行う「X-Paste」と呼ばれるデータ取得・処理フレームワークを設計する。
LVISデータセットでは、X-Pasteが強力なベースラインであるCenterNet2よりも大幅に改善され、Swin-Lがバックボーンとなっている。
具体的には、すべてのクラスで +2.6 ボックス ap と +2.1 マスク ap をアーカイブし、長テールクラスでは +6.8 ボックス ap と +6.5 マスク ap をアーカイブする。
私たちのコードとモデルはhttps://github.com/yoctta/xpasteで利用可能です。
関連論文リスト
- SDI-Paste: Synthetic Dynamic Instance Copy-Paste for Video Instance Segmentation [26.258313321256097]
生成モデルの最近のビデオ忠実度向上を利用して、既存のビデオデータセットに合成されたオブジェクトを組み込んで、オブジェクトのインスタンスプールを人工的に拡張する効果的な方法を模索する。
ビデオデータ拡張パイプラインをSynthetic Dynamic Instance Copy-Pasteと名付け、ビデオシーケンス全体にわたるビデオインスタンスの検出、セグメンテーション、トラッキングという複雑なタスクでそれをテストします。
論文 参考訳(メタデータ) (2024-10-16T12:11:34Z) - A High-Resolution Dataset for Instance Detection with Multi-View
Instance Capture [15.298790238028356]
インスタンス検出(InsDet)は、ロボット工学とコンピュータビジョンにおける長期的な問題である。
現在のInsDetは、今日の標準ではスケールが小さすぎる。
InsDetの新しいデータセットとプロトコルを導入します。
論文 参考訳(メタデータ) (2023-10-30T03:58:41Z) - Semantic-SAM: Segment and Recognize Anything at Any Granularity [83.64686655044765]
本稿では,任意の粒度でセグメンテーションと認識を可能にする汎用画像セグメンテーションモデルであるSemantic-SAMを紹介する。
複数のデータセットを3つの粒度に集約し、オブジェクトとパーツの分離した分類を導入する。
マルチグラニュラリティ機能を実現するために,各クリックで複数のレベルのマスクを生成できるマルチ選択学習方式を提案する。
論文 参考訳(メタデータ) (2023-07-10T17:59:40Z) - Self-Supervised Instance Segmentation by Grasping [84.2469669256257]
我々は、画像の前後から把握対象をセグメント化するためのグリップセグメンテーションモデルを学習する。
セグメント化されたオブジェクトを使用して、元のシーンからオブジェクトを"カット"し、それらを新しいシーンに"ペースト"することで、インスタンスの監視を生成する。
本稿では,従来の画像サブトラクション手法と比較して,グリップセグメント化モデルにより,グリップオブジェクトをセグメント化する場合の誤差が5倍になることを示す。
論文 参考訳(メタデータ) (2023-05-10T16:51:36Z) - Humans need not label more humans: Occlusion Copy & Paste for Occluded
Human Instance Segmentation [0.3867363075280543]
我々は,Occlusion Copy & Pasteを提案する。
既存の大規模データセットを活用するだけで、排他的シナリオのインスタンスセグメンテーションのパフォーマンスが向上する。
そこで本研究では,コピー&ペースト拡張のための様々なアドオンが,実際に性能向上に寄与するかどうかを検証した。
論文 参考訳(メタデータ) (2022-10-07T16:44:05Z) - SOLO: A Simple Framework for Instance Segmentation [84.00519148562606]
インスタンスカテゴリ"は、インスタンスの場所に応じて、インスタンス内の各ピクセルにカテゴリを割り当てる。
SOLO"は、強力なパフォーマンスを備えたインスタンスセグメンテーションのための、シンプルで、直接的で、高速なフレームワークです。
提案手法は, 高速化と精度の両面から, 実例分割の最先端結果を実現する。
論文 参考訳(メタデータ) (2021-06-30T09:56:54Z) - INSTA-YOLO: Real-Time Instance Segmentation [2.726684740197893]
Insta-YOLOは,リアルタイムインスタンス分割のための一段階のエンドツーエンドディープラーニングモデルである。
提案モデルはYOLOワンショットオブジェクト検出器にインスパイアされ,ボックス回帰損失はローカライゼーションヘッドの回帰に置き換わる。
当社のモデルは,Carnva,Cityscapes,Airbusの3つのデータセットで評価する。
論文 参考訳(メタデータ) (2021-02-12T21:17:29Z) - Simple Copy-Paste is a Strong Data Augmentation Method for Instance
Segmentation [94.4931516162023]
例えば、画像にランダムにオブジェクトを貼り付けるセグメンテーションのコピーペースト拡張([13, 12])を研究した。
オブジェクトをランダムに貼り付ける単純なメカニズムは十分十分であり、強いベースラインの上にしっかりとした利得を与えることができる。
我々のベースラインモデルは、まれなカテゴリで+3.6マスクapでlvis 2020チャレンジ入賞を上回っている。
論文 参考訳(メタデータ) (2020-12-13T22:59:45Z) - The Devil is in Classification: A Simple Framework for Long-tail Object
Detection and Instance Segmentation [93.17367076148348]
本稿では,最新のロングテールLVISデータセットを用いて,最先端の2段階のインスタンスセグメンテーションモデルMask R-CNNの性能低下について検討する。
主な原因は、オブジェクト提案の不正確な分類である。
そこで本研究では,2段階のクラスバランスサンプリング手法により,分類ヘッドバイアスをより効果的に緩和する,簡単な校正フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-23T12:49:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。