論文の概要: Exploring Transformers for Open-world Instance Segmentation
- arxiv url: http://arxiv.org/abs/2308.04206v1
- Date: Tue, 8 Aug 2023 12:12:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 13:07:26.632277
- Title: Exploring Transformers for Open-world Instance Segmentation
- Title(参考訳): オープンワールドインスタンスセグメンテーションのためのトランスフォーマーの探索
- Authors: Jiannan Wu, Yi Jiang, Bin Yan, Huchuan Lu, Zehuan Yuan, Ping Luo
- Abstract要約: 我々はTransformerをオープンワールドのインスタンスセグメンテーションやSWORDに活用する。
本研究では,オブジェクトと背景間の表現を拡大する新しいコントラスト学習フレームワークを提案する。
我々のモデルは、様々なオープンワールドのクロスカテゴリやクロスデータセットの一般化において最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 87.21723085867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-world instance segmentation is a rising task, which aims to segment all
objects in the image by learning from a limited number of base-category
objects. This task is challenging, as the number of unseen categories could be
hundreds of times larger than that of seen categories. Recently, the DETR-like
models have been extensively studied in the closed world while stay unexplored
in the open world. In this paper, we utilize the Transformer for open-world
instance segmentation and present SWORD. Firstly, we introduce to attach the
stop-gradient operation before classification head and further add IoU heads
for discovering novel objects. We demonstrate that a simple stop-gradient
operation not only prevents the novel objects from being suppressed as
background, but also allows the network to enjoy the merit of heuristic label
assignment. Secondly, we propose a novel contrastive learning framework to
enlarge the representations between objects and background. Specifically, we
maintain a universal object queue to obtain the object center, and dynamically
select positive and negative samples from the object queries for contrastive
learning. While the previous works only focus on pursuing average recall and
neglect average precision, we show the prominence of SWORD by giving
consideration to both criteria. Our models achieve state-of-the-art performance
in various open-world cross-category and cross-dataset generalizations.
Particularly, in VOC to non-VOC setup, our method sets new state-of-the-art
results of 40.0% on ARb100 and 34.9% on ARm100. For COCO to UVO generalization,
SWORD significantly outperforms the previous best open-world model by 5.9% on
APm and 8.1% on ARm100.
- Abstract(参考訳): オープンワールドのインスタンスセグメンテーションは、少数のベースカテゴリオブジェクトから学習することで、イメージ内のすべてのオブジェクトをセグメンテーションすることを目的としている。
目に見えないカテゴリの数は、見られているカテゴリの何百倍も大きい可能性があるため、このタスクは困難である。
近年、DETRのようなモデルがクローズドな世界で広く研究され、オープンな世界では探索されていない。
本稿では,Transformerを用いてオープンワールドのインスタンスセグメンテーションとSWORDを提案する。
まず,分類ヘッドの前にストップグレード操作をアタッチし,さらに新たなオブジェクト発見のためのiouヘッドを追加する。
単純なストップグレード操作は,新しいオブジェクトが背景として抑制されるのを防ぐだけでなく,ヒューリスティックラベル割り当てのメリットをネットワークが享受できることを示す。
次に,オブジェクトと背景の表現を拡大するための新しいコントラスト学習フレームワークを提案する。
具体的には,オブジェクトセンタを得るためにユニバーサルオブジェクトキューを維持し,オブジェクトクエリから正と負のサンプルを動的に選択して対比学習を行う。
本研究は, 平均リコールと平均精度の無視にのみ焦点をあてるものであるが, いずれの基準も考慮し, SWORDの優位性を示す。
我々のモデルは、様々なオープンワールドのクロスカテゴリやクロスデータセットの一般化において最先端のパフォーマンスを達成する。
特にVOC以外のシステムでは,ARb100では40.0%,ARm100では34.9%の新たな技術結果が得られた。
COCO と UVO の一般化では、SWORD はAPm では5.9%、ARm100 では8.1% で過去最高のオープンワールドモデルを上回っている。
関連論文リスト
- SegPrompt: Boosting Open-world Segmentation via Category-level Prompt
Learning [49.17344010035996]
オープンワールドインスタンスセグメンテーション(OWIS)モデルは、クラスに依存しない方法で未知のオブジェクトを検出する。
以前のOWISは、未知のオブジェクトに一般化するモデルの能力を維持するために、トレーニング中のカテゴリ情報を完全に消去するアプローチだった。
そこで本研究では,モデルのクラスに依存しないセグメンテーション能力を改善するためにカテゴリ情報を利用するSegPromptと呼ばれる新しいトレーニング機構を提案する。
論文 参考訳(メタデータ) (2023-08-12T11:25:39Z) - Semantic-Promoted Debiasing and Background Disambiguation for Zero-Shot
Instance Segmentation [13.001629605405954]
Zero-shotインスタンスセグメンテーションは、トレーニングサンプルを使わずに、目に見えないカテゴリのオブジェクトを検出し、正確にセグメンテーションすることを目的としている。
セマンティック・プロモート・デバイアスと背景曖昧化を併用したD$2$Zeroを提案する。
背景の曖昧さは、背景に対する新しいオブジェクトの誤認を避けるために、画像適応的な背景表現を生成する。
論文 参考訳(メタデータ) (2023-05-22T16:00:01Z) - GOOD: Exploring Geometric Cues for Detecting Objects in an Open World [33.25263418112558]
最先端のRGBベースのモデルは、トレーニングクラスの過度な適合に悩まされ、新しいオブジェクトの検出に失敗することが多い。
汎用単分子推定器により予測される深度や正規度などの幾何学的手法を取り入れることを提案する。
我々のGeometry-Guided Open World Object Detector (GOOD)は、新しいオブジェクトカテゴリの検出リコールを大幅に改善し、いくつかのトレーニングクラスですでにうまく機能している。
論文 参考訳(メタデータ) (2022-12-22T14:13:33Z) - Open World DETR: Transformer based Open World Object Detection [60.64535309016623]
そこで我々は,Deformable DETRに基づくオープンワールドオブジェクト検出のための2段階学習手法Open World DETRを提案する。
モデルのクラス固有のコンポーネントを多視点の自己ラベル戦略と一貫性制約で微調整する。
提案手法は、他の最先端のオープンワールドオブジェクト検出方法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-12-06T13:39:30Z) - CLIP on Wheels: Zero-Shot Object Navigation as Object Localization and
Exploration [31.18818639097139]
本稿では、ゼロショットビジョンモデルの成功を、オブジェクトナビゲーションの一般的な具体的AIタスクに翻訳する。
タスクのためのCLIP on Wheels(CoW)ベースラインを設計し、HabitatとRoboTHORのシミュレータで各ゼロショットモデルを評価する。
私たちは、CLIPベースのオブジェクトローカライゼーションと古典的な探索、追加のトレーニングのない単純なCoWが、データセットの分散シフトの成功、効率、堅牢性という点で、学習可能なアプローチよりも優れています。
論文 参考訳(メタデータ) (2022-03-20T00:52:45Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z) - Learning to Detect Every Thing in an Open World [139.78830329914135]
我々は、Learning to Detect Every Thing (LDET)と呼ぶ、シンプルながら驚くほど強力なデータ拡張とトレーニングスキームを提案する。
可視だがラベル付けされていない背景オブジェクトの隠蔽を避けるため、元の画像の小さな領域から採取した背景画像上に注釈付きオブジェクトを貼り付ける。
LDETは、オープンワールドのインスタンスセグメンテーションタスクにおいて、多くのデータセットに大きな改善をもたらす。
論文 参考訳(メタデータ) (2021-12-03T03:56:06Z) - Learning Open-World Object Proposals without Learning to Classify [110.30191531975804]
本研究では,各領域の位置と形状がどの接地トラストオブジェクトとどのように重なり合うかによって,各領域の目的性を純粋に推定する,分類不要なオブジェクトローカライゼーションネットワークを提案する。
この単純な戦略は一般化可能な対象性を学び、クロスカテゴリの一般化に関する既存の提案より優れている。
論文 参考訳(メタデータ) (2021-08-15T14:36:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。