論文の概要: OV-PARTS: Towards Open-Vocabulary Part Segmentation
- arxiv url: http://arxiv.org/abs/2310.05107v1
- Date: Sun, 8 Oct 2023 10:28:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 12:35:46.905813
- Title: OV-PARTS: Towards Open-Vocabulary Part Segmentation
- Title(参考訳): OV-PARTS:Open-Vocabulary Part Segmentationを目指して
- Authors: Meng Wei, Xiaoyu Yue, Wenwei Zhang, Shu Kong, Xihui Liu, Jiangmiao
Pang
- Abstract要約: 多様な物体の部分の分割と認識は、様々なコンピュータビジョンやロボットタスクにまたがるアプリケーションにおいて重要な能力である。
本稿では,これらの課題を調査・解決するためのOpen-Vocabulary Part (OV-PARTS)ベンチマークを提案する。
OV-PARTSには、Pascal-Part-116とADE20K--234という2つの公開データセットの洗練されたバージョンが含まれている。さらに、Generalized Zero-Shot Partアナログ、Cross-Dataset Part、Few-Shot Partという3つの特定のタスクもカバーしている。
- 参考スコア(独自算出の注目度): 31.136262413989858
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Segmenting and recognizing diverse object parts is a crucial ability in
applications spanning various computer vision and robotic tasks. While
significant progress has been made in object-level Open-Vocabulary Semantic
Segmentation (OVSS), i.e., segmenting objects with arbitrary text, the
corresponding part-level research poses additional challenges. Firstly, part
segmentation inherently involves intricate boundaries, while limited annotated
data compounds the challenge. Secondly, part segmentation introduces an open
granularity challenge due to the diverse and often ambiguous definitions of
parts in the open world. Furthermore, the large-scale vision and language
models, which play a key role in the open vocabulary setting, struggle to
recognize parts as effectively as objects. To comprehensively investigate and
tackle these challenges, we propose an Open-Vocabulary Part Segmentation
(OV-PARTS) benchmark. OV-PARTS includes refined versions of two publicly
available datasets: Pascal-Part-116 and ADE20K-Part-234. And it covers three
specific tasks: Generalized Zero-Shot Part Segmentation, Cross-Dataset Part
Segmentation, and Few-Shot Part Segmentation, providing insights into
analogical reasoning, open granularity and few-shot adapting abilities of
models. Moreover, we analyze and adapt two prevailing paradigms of existing
object-level OVSS methods for OV-PARTS. Extensive experimental analysis is
conducted to inspire future research in leveraging foundational models for
OV-PARTS. The code and dataset are available at
https://github.com/OpenRobotLab/OV_PARTS.
- Abstract(参考訳): 多様なオブジェクトの部分のセグメンテーションと認識は、様々なコンピュータビジョンとロボットタスクにまたがるアプリケーションにおいて重要な能力である。
オブジェクトレベルのOpen-Vocabulary Semantic Segmentation (OVSS)では、オブジェクトを任意のテキストでセグメント化するという大きな進歩があったが、それに対応する部分レベルの研究はさらなる課題をもたらす。
第一に、部分セグメンテーションは本質的に複雑な境界を伴うが、限定的な注釈付きデータ複合が課題となる。
第二に、パートセグメンテーションは、オープン世界の部分の多様かつしばしばあいまいな定義のために、オープンな粒度の挑戦をもたらす。
さらに、オープン語彙設定において重要な役割を果たす大規模視覚と言語モデルでは、部品をオブジェクトとして効果的に認識することが困難である。
これらの課題を包括的に調査し,対処するために,Open-Vocabulary Part Segmentation (OV-PARTS)ベンチマークを提案する。
OV-PARTSにはPascal-Part-116とADE20K-Part-234という2つの公開データセットの洗練されたバージョンが含まれている。
一般化ゼロショット部分分割(Generalized Zero-Shot Part Segmentation)、クロスデータセット部分分割(Cross-Dataset Part Segmentation)、Few-Shot Part Segmentation(Few-Shot Part Segmentation)である。
さらに、OV-PARTSのための既存のオブジェクトレベルOVSS手法の2つの一般的なパラダイムを分析し、適応する。
ov-partsの基礎モデルを活用するための今後の研究を刺激するために,広範な実験分析を行った。
コードとデータセットはhttps://github.com/openrobotlab/ov_partsで入手できる。
関連論文リスト
- Image Segmentation in Foundation Model Era: A Survey [99.19456390358211]
イメージセグメンテーションにおける現在の研究は、これらの進歩に関連する特徴、課題、解決策の詳細な分析を欠いている。
本調査は、FM駆動画像セグメンテーションを中心とした最先端の研究を徹底的にレビューすることで、このギャップを埋めようとしている。
現在の研究成果の広さを包括する,300以上のセグメンテーションアプローチの概要を概観する。
論文 参考訳(メタデータ) (2024-08-23T10:07:59Z) - VISA: Reasoning Video Object Segmentation via Large Language Models [64.33167989521357]
我々は新しいタスク、Reasoning Video Object(ReasonVOS)を導入する。
このタスクは、複雑な推論能力を必要とする暗黙のテキストクエリに応答して、セグメンテーションマスクのシーケンスを生成することを目的としている。
本稿では、ReasonVOSに取り組むためにVISA(ビデオベース大規模言語命令付きアシスタント)を導入する。
論文 参考訳(メタデータ) (2024-07-16T02:29:29Z) - Understanding Multi-Granularity for Open-Vocabulary Part Segmentation [24.071471822239854]
Open-vocabulary part segmentation (OVPS) は、多種多様な未確認語彙を用いたきめ細かいエンティティのセグメンテーションに焦点を当てた新興研究分野である。
本研究は,部分識別の知識に基づく性質を反映して,複雑な境界と多様な粒度による部分分割の複雑さを強調した。
一般化された部分とオブジェクトレベルのコンテキストを活用する新しいフレームワークであるPartCLIPSegを提案する。
論文 参考訳(メタデータ) (2024-06-17T10:11:28Z) - USE: Universal Segment Embeddings for Open-Vocabulary Image Segmentation [33.11010205890195]
オープン語彙のイメージセグメンテーションにおける大きな課題は、これらのセグメンテーションをテキスト定義カテゴリに正確に分類することにある。
この課題に対処するために、Universal Segment Embedding(USE)フレームワークを紹介します。
本フレームワークは,1)大量のセグメントテキストペアを様々な粒度で効率的にキュレートするように設計されたデータパイプライン,2)テキスト定義のカテゴリに精度の高いセグメント分類を可能にする普遍的なセグメント埋め込みモデルからなる。
論文 参考訳(メタデータ) (2024-06-07T21:41:18Z) - Frequency-based Matcher for Long-tailed Semantic Segmentation [22.199174076366003]
我々は、比較的未探索なタスク設定、長い尾のセマンティックセマンティックセグメンテーション(LTSS)に焦点を当てる。
本稿では,セマンティックセグメンテーション手法と長鎖解の性能を示すために,二値評価システムを提案し,LTSSベンチマークを構築した。
また,1対1のマッチングによって過剰な圧縮問題を解決する周波数ベースのマーカであるLTSSを改善するトランスフォーマーベースのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-06T09:57:56Z) - LISA: Reasoning Segmentation via Large Language Model [68.24075852136761]
そこで我々は,新たなセグメンテーションタスク,すなわち推論セグメンテーションを提案する。
このタスクは、複雑で暗黙的なクエリテキストを与えられたセグメンテーションマスクを出力するように設計されている。
提案するLISA: Large Language Instructed Assistantは,マルチモーダル大規模言語モデルの言語生成能力を継承する。
論文 参考訳(メタデータ) (2023-08-01T17:50:17Z) - AIMS: All-Inclusive Multi-Level Segmentation [93.5041381700744]
視覚領域を3つのレベル(パート、エンティティ、リレーション)に分割するタスクであるAll-Inclusive Multi-Level(AIMS)を提案する。
また、アノテーションの不整合とタスク相関の2つの大きな課題に対処するために、マルチデータセットのマルチタスクトレーニングを通じて統合されたAIMSモデルを構築します。
論文 参考訳(メタデータ) (2023-05-28T16:28:49Z) - Towards Open-World Segmentation of Parts [16.056921233445784]
本稿では,クラスに依存しない部分分割タスクを提案する。
パートクラスなしでトレーニングされたモデルは、トレーニング時に見えない部分のローカライズとオブジェクトへのセグメンテーションを改善することができる、と私たちは主張する。
当社のアプローチでは,オープンワールドのパートセグメンテーションに向けた重要なステップとして,注目すべきかつ一貫した成果をあげています。
論文 参考訳(メタデータ) (2023-05-26T10:34:58Z) - Going Denser with Open-Vocabulary Part Segmentation [38.395986723880505]
開語彙オブジェクトとその部分セグメンテーションの両方を予測することができる検出器を提案する。
まず、部分レベル、オブジェクトレベル、画像レベルのデータのジョイント上で検出器を訓練し、言語と画像間の多粒度アライメントを構築する。
第二に、新しいオブジェクトを、ベースオブジェクトとの密接なセマンティック対応によって、そのパーツにパースする。
論文 参考訳(メタデータ) (2023-05-18T17:59:10Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。