論文の概要: OV-PARTS: Towards Open-Vocabulary Part Segmentation
- arxiv url: http://arxiv.org/abs/2310.05107v1
- Date: Sun, 8 Oct 2023 10:28:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 12:35:46.905813
- Title: OV-PARTS: Towards Open-Vocabulary Part Segmentation
- Title(参考訳): OV-PARTS:Open-Vocabulary Part Segmentationを目指して
- Authors: Meng Wei, Xiaoyu Yue, Wenwei Zhang, Shu Kong, Xihui Liu, Jiangmiao
Pang
- Abstract要約: 多様な物体の部分の分割と認識は、様々なコンピュータビジョンやロボットタスクにまたがるアプリケーションにおいて重要な能力である。
本稿では,これらの課題を調査・解決するためのOpen-Vocabulary Part (OV-PARTS)ベンチマークを提案する。
OV-PARTSには、Pascal-Part-116とADE20K--234という2つの公開データセットの洗練されたバージョンが含まれている。さらに、Generalized Zero-Shot Partアナログ、Cross-Dataset Part、Few-Shot Partという3つの特定のタスクもカバーしている。
- 参考スコア(独自算出の注目度): 31.136262413989858
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Segmenting and recognizing diverse object parts is a crucial ability in
applications spanning various computer vision and robotic tasks. While
significant progress has been made in object-level Open-Vocabulary Semantic
Segmentation (OVSS), i.e., segmenting objects with arbitrary text, the
corresponding part-level research poses additional challenges. Firstly, part
segmentation inherently involves intricate boundaries, while limited annotated
data compounds the challenge. Secondly, part segmentation introduces an open
granularity challenge due to the diverse and often ambiguous definitions of
parts in the open world. Furthermore, the large-scale vision and language
models, which play a key role in the open vocabulary setting, struggle to
recognize parts as effectively as objects. To comprehensively investigate and
tackle these challenges, we propose an Open-Vocabulary Part Segmentation
(OV-PARTS) benchmark. OV-PARTS includes refined versions of two publicly
available datasets: Pascal-Part-116 and ADE20K-Part-234. And it covers three
specific tasks: Generalized Zero-Shot Part Segmentation, Cross-Dataset Part
Segmentation, and Few-Shot Part Segmentation, providing insights into
analogical reasoning, open granularity and few-shot adapting abilities of
models. Moreover, we analyze and adapt two prevailing paradigms of existing
object-level OVSS methods for OV-PARTS. Extensive experimental analysis is
conducted to inspire future research in leveraging foundational models for
OV-PARTS. The code and dataset are available at
https://github.com/OpenRobotLab/OV_PARTS.
- Abstract(参考訳): 多様なオブジェクトの部分のセグメンテーションと認識は、様々なコンピュータビジョンとロボットタスクにまたがるアプリケーションにおいて重要な能力である。
オブジェクトレベルのOpen-Vocabulary Semantic Segmentation (OVSS)では、オブジェクトを任意のテキストでセグメント化するという大きな進歩があったが、それに対応する部分レベルの研究はさらなる課題をもたらす。
第一に、部分セグメンテーションは本質的に複雑な境界を伴うが、限定的な注釈付きデータ複合が課題となる。
第二に、パートセグメンテーションは、オープン世界の部分の多様かつしばしばあいまいな定義のために、オープンな粒度の挑戦をもたらす。
さらに、オープン語彙設定において重要な役割を果たす大規模視覚と言語モデルでは、部品をオブジェクトとして効果的に認識することが困難である。
これらの課題を包括的に調査し,対処するために,Open-Vocabulary Part Segmentation (OV-PARTS)ベンチマークを提案する。
OV-PARTSにはPascal-Part-116とADE20K-Part-234という2つの公開データセットの洗練されたバージョンが含まれている。
一般化ゼロショット部分分割(Generalized Zero-Shot Part Segmentation)、クロスデータセット部分分割(Cross-Dataset Part Segmentation)、Few-Shot Part Segmentation(Few-Shot Part Segmentation)である。
さらに、OV-PARTSのための既存のオブジェクトレベルOVSS手法の2つの一般的なパラダイムを分析し、適応する。
ov-partsの基礎モデルを活用するための今後の研究を刺激するために,広範な実験分析を行った。
コードとデータセットはhttps://github.com/openrobotlab/ov_partsで入手できる。
関連論文リスト
- LISA: Reasoning Segmentation via Large Language Model [60.02788530436362]
そこで我々は,新たなセグメンテーションタスク,すなわち推論セグメンテーションを提案する。
このタスクは、複雑で暗黙的なクエリテキストを与えられたセグメンテーションマスクを出力するように設計されている。
我々は,1000以上の画像命令ペアからなるベンチマークを構築した。
LISA: large Language Instructed Assistantについて紹介する。
論文 参考訳(メタデータ) (2023-08-01T17:50:17Z) - AIMS: All-Inclusive Multi-Level Segmentation [93.5041381700744]
視覚領域を3つのレベル(パート、エンティティ、リレーション)に分割するタスクであるAll-Inclusive Multi-Level(AIMS)を提案する。
また、アノテーションの不整合とタスク相関の2つの大きな課題に対処するために、マルチデータセットのマルチタスクトレーニングを通じて統合されたAIMSモデルを構築します。
論文 参考訳(メタデータ) (2023-05-28T16:28:49Z) - Towards Open-World Segmentation of Parts [16.056921233445784]
本稿では,クラスに依存しない部分分割タスクを提案する。
パートクラスなしでトレーニングされたモデルは、トレーニング時に見えない部分のローカライズとオブジェクトへのセグメンテーションを改善することができる、と私たちは主張する。
当社のアプローチでは,オープンワールドのパートセグメンテーションに向けた重要なステップとして,注目すべきかつ一貫した成果をあげています。
論文 参考訳(メタデータ) (2023-05-26T10:34:58Z) - Going Denser with Open-Vocabulary Part Segmentation [38.395986723880505]
開語彙オブジェクトとその部分セグメンテーションの両方を予測することができる検出器を提案する。
まず、部分レベル、オブジェクトレベル、画像レベルのデータのジョイント上で検出器を訓練し、言語と画像間の多粒度アライメントを構築する。
第二に、新しいオブジェクトを、ベースオブジェクトとの密接なセマンティック対応によって、そのパーツにパースする。
論文 参考訳(メタデータ) (2023-05-18T17:59:10Z) - Segment Everything Everywhere All at Once [124.90835636901096]
画像中のすべてのものを同時にセグメント化するための,迅速かつインタラクティブなモデルであるSEEMを提案する。
そこで本研究では,あらゆるタイプのセグメンテーションタスクに対して,多様なプロンプトを可能にする新しい復号化機構を提案する。
多様なセグメンテーションタスクにおけるSEEMの有効性を検証するための総合的な実証的研究を行った。
論文 参考訳(メタデータ) (2023-04-13T17:59:40Z) - A Simple Framework for Open-Vocabulary Segmentation and Detection [85.21641508535679]
我々は,異なるセグメンテーションと検出データセットから共同で学習する,シンプルなオープン語彙検出フレームワークOpenSeeDを提案する。
まず、事前学習されたテキストエンコーダを導入し、視覚概念を2つのタスクにエンコードし、それらの共通意味空間を学習する。
プレトレーニング後,本モデルでは,セグメンテーションと検出の両方において,競争力あるいは強いゼロショット転送性を示す。
論文 参考訳(メタデータ) (2023-03-14T17:58:34Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - Unsupervised Co-part Segmentation through Assembly [42.874278526843305]
画像からのコパートセグメンテーションのための教師なし学習手法を提案する。
我々はビデオに埋め込まれた動作情報を活用し、意味のある対象をセグメント化する潜在表現を明示的に抽出する。
提案手法は,多種多様なベンチマークにおける最先端のアプローチよりも優れた,有意義でコンパクトな部分分割を実現することができることを示す。
論文 参考訳(メタデータ) (2021-06-10T16:22:53Z) - Unsupervised Part Discovery by Unsupervised Disentanglement [10.664434993386525]
部分分割は、個々のピクセルのレベルにおける部分ローカライゼーションに関する情報を提供する。
大きなアノテーションのコストは、教師付きアルゴリズムのスケーラビリティを他のオブジェクトカテゴリに制限します。
我々の研究は、監督なしに意味的部分のセグメンテーションを発見できる可能性を示している。
論文 参考訳(メタデータ) (2020-09-09T12:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。