論文の概要: Hierarchical Open-vocabulary Universal Image Segmentation
- arxiv url: http://arxiv.org/abs/2307.00764v2
- Date: Thu, 21 Dec 2023 18:28:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 18:59:49.810055
- Title: Hierarchical Open-vocabulary Universal Image Segmentation
- Title(参考訳): 階層的オープン語彙的ユニバーサルイメージセグメンテーション
- Authors: Xudong Wang and Shufan Li and Konstantinos Kallidromitis and Yusuke
Kato and Kazuki Kozuka and Trevor Darrell
- Abstract要約: Open-vocabulary Image segmentationは、任意のテキスト記述に従ってイメージをセマンティック領域に分割することを目的としている。
我々は,「モノ」と「スタッフ」の双方に対して,分離されたテキストイメージ融合機構と表現学習モジュールを提案する。
HIPIE tackles, HIerarchical, oPen-vocabulary, unIvErsal segmentation task in a unified framework。
- 参考スコア(独自算出の注目度): 48.008887320870244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-vocabulary image segmentation aims to partition an image into semantic
regions according to arbitrary text descriptions. However, complex visual
scenes can be naturally decomposed into simpler parts and abstracted at
multiple levels of granularity, introducing inherent segmentation ambiguity.
Unlike existing methods that typically sidestep this ambiguity and treat it as
an external factor, our approach actively incorporates a hierarchical
representation encompassing different semantic-levels into the learning
process. We propose a decoupled text-image fusion mechanism and representation
learning modules for both "things" and "stuff". Additionally, we systematically
examine the differences that exist in the textual and visual features between
these types of categories. Our resulting model, named HIPIE, tackles
HIerarchical, oPen-vocabulary, and unIvErsal segmentation tasks within a
unified framework. Benchmarked on over 40 datasets, e.g., ADE20K, COCO,
Pascal-VOC Part, RefCOCO/RefCOCOg, ODinW and SeginW, HIPIE achieves the
state-of-the-art results at various levels of image comprehension, including
semantic-level (e.g., semantic segmentation), instance-level (e.g.,
panoptic/referring segmentation and object detection), as well as part-level
(e.g., part/subpart segmentation) tasks. Our code is released at
https://github.com/berkeley-hipie/HIPIE.
- Abstract(参考訳): Open-vocabulary Image segmentationは、任意のテキスト記述に従ってイメージをセマンティック領域に分割することを目的としている。
しかし、複雑な視覚シーンは自然により単純な部品に分解され、複数のレベルの粒度で抽象化され、固有のセグメンテーションあいまいさをもたらす。
この曖昧さを回避し、外部要因として扱う既存の方法とは異なり、このアプローチでは、異なる意味レベルを包含する階層表現を学習プロセスに積極的に組み込む。
本稿では,分離されたテキスト画像融合機構と表現学習モジュールを提案する。
さらに,これらのカテゴリー間のテキスト的特徴と視覚的特徴の相違を系統的に検討した。
結果として得られたHIPIEは、統一フレームワーク内の階層的、oPen-vocabulary、unIvErsalセグメンテーションタスクに取り組む。
ADE20K、COCO、Pascal-VOC Part、RefCOCO/RefCOCOg、ODinW、SeginWなど40以上のデータセットでベンチマークされたHIPIEは、セマンティックレベル(セマンティックセグメンテーションなど)、インスタンスレベル(パンプト/リリファレンスセグメンテーションとオブジェクト検出など)、および部分レベル(パート/サブパートセグメンテーションなど)タスクを含む、さまざまなレベルのイメージ理解において、最先端の結果を達成する。
私たちのコードはhttps://github.com/berkeley-hipie/hipieでリリースしています。
関連論文リスト
- Primitive Generation and Semantic-related Alignment for Universal
Zero-Shot Segmentation [13.001629605405954]
本研究では, トレーニングサンプルを使わずに, 新規カテゴリのパノプティクス, 例えば, セマンティックセマンティックセマンティックセマンティックセマンティクスを実現するために, ユニバーサルゼロショットセマンティクスについて検討する。
本稿では,意味空間と視覚空間を関連づけた未知のカテゴリの特徴を合成する生成モデルを提案する。
提案手法は、ゼロショットパノプティクスのセグメンテーション、インスタンスセグメンテーション、セマンティックセグメンテーションにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-19T17:59:16Z) - SegGPT: Segmenting Everything In Context [98.98487097934067]
コンテキスト内ですべてをセグメント化するモデルであるSegGPTを提示する。
様々なセグメンテーションタスクを汎用的なインコンテキスト学習フレームワークに統合する。
SegGPTは、コンテクスト内推論を通じて、画像やビデオの任意のセグメンテーションタスクを実行することができる。
論文 参考訳(メタデータ) (2023-04-06T17:59:57Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z) - Deep Hierarchical Semantic Segmentation [76.40565872257709]
階層的セマンティックセマンティックセグメンテーション(HSS)は、クラス階層の観点で視覚的観察を構造化、ピクセル単位で記述することを目的としている。
HSSNは、HSSを画素単位のマルチラベル分類タスクとしてキャストし、現在のセグメンテーションモデルに最小限のアーキテクチャ変更をもたらすだけである。
階層構造によって引き起こされるマージンの制約により、HSSNはピクセル埋め込み空間を再評価し、よく構造化されたピクセル表現を生成する。
論文 参考訳(メタデータ) (2022-03-27T15:47:44Z) - TransFGU: A Top-down Approach to Fine-Grained Unsupervised Semantic
Segmentation [44.75300205362518]
教師なしセマンティックセグメンテーションは、手動のアノテーションを使わずに、低レベルの視覚的特徴の高レベルセマンティック表現を得ることを目的としている。
本稿では, 非常に複雑なシナリオにおける細粒度セグメンテーションのための, トップダウンの教師なしセグメンテーションフレームワークを提案する。
我々の結果は、トップダウンの教師なしセグメンテーションが、オブジェクト中心とシーン中心の両方のデータセットに対して堅牢であることを示している。
論文 参考訳(メタデータ) (2021-12-02T18:59:03Z) - Exploring Cross-Image Pixel Contrast for Semantic Segmentation [130.22216825377618]
完全教師付きセッティングにおけるセマンティックセグメンテーションのための画素単位のコントラストフレームワークを提案する。
中心となる考え方は、同じセマンティッククラスに属するピクセルの埋め込みを、異なるクラスの埋め込みよりもよく似ているように強制することである。
テスト中に余分なオーバーヘッドを伴わずに既存のセグメンテーションフレームワークに懸命に組み込むことができる。
論文 参考訳(メタデータ) (2021-01-28T11:35:32Z) - From Pixel to Patch: Synthesize Context-aware Features for Zero-shot
Semantic Segmentation [22.88452754438478]
ゼロショットセマンティックセマンティックセマンティックセマンティクスは,カテゴリレベルのセマンティクスのみを持つ未確認オブジェクトのセマンティクスを目的としたセマンティクスである。
本研究では,コンテキスト認識機能生成ネットワーク(CaGNet)を提案する。
Pascal-VOC, Pascal-Context, COCO-stuff の実験結果から,本手法は既存のゼロショットセマンティックセマンティックセグメンテーション法よりも有意に優れていることが示された。
論文 参考訳(メタデータ) (2020-09-25T13:26:30Z) - Improving Semantic Segmentation via Decoupled Body and Edge Supervision [89.57847958016981]
既存のセグメンテーションアプローチは、グローバルコンテキストをモデル化することでオブジェクトの内部の一貫性を改善すること、あるいはマルチスケールの特徴融合によって境界に沿ったオブジェクトの詳細を洗練することを目的としている。
本稿では,セマンティックセグメンテーションのための新しいパラダイムを提案する。
我々の洞察は、セマンティックセグメンテーションの魅力ある性能には、画像の高頻度と低頻度に対応するオブジェクトのテキストボディとテキストエッジを具体的にモデル化する必要があるということである。
さまざまなベースラインやバックボーンネットワークを備えた提案したフレームワークが,オブジェクト内部の一貫性とオブジェクト境界を向上させることを示す。
論文 参考訳(メタデータ) (2020-07-20T12:11:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。