論文の概要: Going Denser with Open-Vocabulary Part Segmentation
- arxiv url: http://arxiv.org/abs/2305.11173v1
- Date: Thu, 18 May 2023 17:59:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 13:30:08.713105
- Title: Going Denser with Open-Vocabulary Part Segmentation
- Title(参考訳): Open-Vocabulary Part Segmentation を用いた Going Denser の開発
- Authors: Peize Sun, Shoufa Chen, Chenchen Zhu, Fanyi Xiao, Ping Luo, Saining
Xie, Zhicheng Yan
- Abstract要約: 開語彙オブジェクトとその部分セグメンテーションの両方を予測することができる検出器を提案する。
まず、部分レベル、オブジェクトレベル、画像レベルのデータのジョイント上で検出器を訓練し、言語と画像間の多粒度アライメントを構築する。
第二に、新しいオブジェクトを、ベースオブジェクトとの密接なセマンティック対応によって、そのパーツにパースする。
- 参考スコア(独自算出の注目度): 38.395986723880505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object detection has been expanded from a limited number of categories to
open vocabulary. Moving forward, a complete intelligent vision system requires
understanding more fine-grained object descriptions, object parts. In this
paper, we propose a detector with the ability to predict both open-vocabulary
objects and their part segmentation. This ability comes from two designs.
First, we train the detector on the joint of part-level, object-level and
image-level data to build the multi-granularity alignment between language and
image. Second, we parse the novel object into its parts by its dense semantic
correspondence with the base object. These two designs enable the detector to
largely benefit from various data sources and foundation models. In
open-vocabulary part segmentation experiments, our method outperforms the
baseline by 3.3$\sim$7.3 mAP in cross-dataset generalization on PartImageNet,
and improves the baseline by 7.3 novel AP$_{50}$ in cross-category
generalization on Pascal Part. Finally, we train a detector that generalizes to
a wide range of part segmentation datasets while achieving better performance
than dataset-specific training.
- Abstract(参考訳): オブジェクト検出は、限られたカテゴリからオープン語彙へと拡張されている。
将来的には、完全なインテリジェントなビジョンシステムは、よりきめ細かいオブジェクト記述やオブジェクト部品を理解する必要がある。
本稿では,開語彙オブジェクトとその部分セグメンテーションの両方を予測することができる検出器を提案する。
この能力は2つのデザインから得られる。
まず, 部分レベル, オブジェクトレベル, 画像レベルのデータのジョイント上に検出器をトレーニングし, 言語と画像間の多粒度アライメントを構築する。
第2に,基本対象との密接な意味的対応によって,新しい対象をその部分へ解析する。
これら2つの設計により、検出器は様々なデータソースと基礎モデルから大きな恩恵を受けることができる。
本手法は,open-vocabulary part segmentation 実験において,partimagenet におけるクロスデータセット一般化において,ベースラインを 3.3$\sim$7.3 で上回り,パスカル部分のクロスカテゴリ一般化において7.3 の新規ap$_{50}$ でベースラインを改善する。
最後に、幅広い部分セグメンテーションデータセットに一般化した検出器をトレーニングし、データセット固有のトレーニングよりも優れたパフォーマンスを実現します。
関連論文リスト
- DetCLIPv3: Towards Versatile Generative Open-vocabulary Object Detection [111.68263493302499]
DetCLIPv3は、オープンボキャブラリオブジェクト検出と階層ラベルの両方で優れた高性能検出器である。
DetCLIPv3は,1)Versatileモデルアーキテクチャ,2)高情報密度データ,3)効率的なトレーニング戦略の3つのコア設計によって特徴付けられる。
DetCLIPv3は、GLIPv2, GroundingDINO, DetCLIPv2をそれぞれ18.0/19.6/6 APで上回り、優れたオープン語彙検出性能を示す。
論文 参考訳(メタデータ) (2024-04-14T11:01:44Z) - PARIS3D: Reasoning-based 3D Part Segmentation Using Large Multimodal Model [19.333506797686695]
本稿では,3次元オブジェクトに対する推論部分分割と呼ばれる新しいセグメンテーションタスクを提案する。
我々は3Dオブジェクトの特定の部分に関する複雑で暗黙的なテキストクエリに基づいてセグメンテーションマスクを出力する。
本稿では,暗黙のテキストクエリに基づいて3次元オブジェクトの一部を分割し,自然言語による説明を生成するモデルを提案する。
論文 参考訳(メタデータ) (2024-04-04T23:38:45Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - OV-PARTS: Towards Open-Vocabulary Part Segmentation [31.136262413989858]
多様な物体の部分の分割と認識は、様々なコンピュータビジョンやロボットタスクにまたがるアプリケーションにおいて重要な能力である。
本稿では,これらの課題を調査・解決するためのOpen-Vocabulary Part (OV-PARTS)ベンチマークを提案する。
OV-PARTSには、Pascal-Part-116とADE20K--234という2つの公開データセットの洗練されたバージョンが含まれている。さらに、Generalized Zero-Shot Partアナログ、Cross-Dataset Part、Few-Shot Partという3つの特定のタスクもカバーしている。
論文 参考訳(メタデータ) (2023-10-08T10:28:42Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z) - PartAfford: Part-level Affordance Discovery from 3D Objects [113.91774531972855]
パートレベルの空き地探索(PartAfford)の課題について紹介する。
対象物当たりの空きラベルのみを考慮し、(i)3D形状を部品に分解し、(ii)各部品が特定の空きカテゴリに対応する方法を検出する。
本稿では,パーセンテージ・セットの監督と幾何学的原始正規化のみを活用することで,パートレベルの表現を発見する新しい学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-28T02:58:36Z) - Unsupervised Part Discovery from Contrastive Reconstruction [90.88501867321573]
自己監督型視覚表現学習の目標は、強く伝達可能な画像表現を学習することである。
対象部分の発見とセグメンテーションに対する教師なしアプローチを提案する。
本手法は, 細粒度, 視覚的に異なるカテゴリ間でセマンティックな部分を生成する。
論文 参考訳(メタデータ) (2021-11-11T17:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。