Fugu-MT 論文翻訳(概要): Hierarchical Open-vocabulary Universal Image Segmentation

論文の概要: Hierarchical Open-vocabulary Universal Image Segmentation

arxiv url: http://arxiv.org/abs/2307.00764v2
Date: Thu, 21 Dec 2023 18:28:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-22 18:59:49.810055
Title: Hierarchical Open-vocabulary Universal Image Segmentation
Title（参考訳）: 階層的オープン語彙的ユニバーサルイメージセグメンテーション
Authors: Xudong Wang and Shufan Li and Konstantinos Kallidromitis and Yusuke Kato and Kazuki Kozuka and Trevor Darrell
Abstract要約: Open-vocabulary Image segmentationは、任意のテキスト記述に従ってイメージをセマンティック領域に分割することを目的としている。我々は,「モノ」と「スタッフ」の双方に対して,分離されたテキストイメージ融合機構と表現学習モジュールを提案する。 HIPIE tackles, HIerarchical, oPen-vocabulary, unIvErsal segmentation task in a unified framework。
参考スコア（独自算出の注目度）: 48.008887320870244
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Open-vocabulary image segmentation aims to partition an image into semantic regions according to arbitrary text descriptions. However, complex visual scenes can be naturally decomposed into simpler parts and abstracted at multiple levels of granularity, introducing inherent segmentation ambiguity. Unlike existing methods that typically sidestep this ambiguity and treat it as an external factor, our approach actively incorporates a hierarchical representation encompassing different semantic-levels into the learning process. We propose a decoupled text-image fusion mechanism and representation learning modules for both "things" and "stuff". Additionally, we systematically examine the differences that exist in the textual and visual features between these types of categories. Our resulting model, named HIPIE, tackles HIerarchical, oPen-vocabulary, and unIvErsal segmentation tasks within a unified framework. Benchmarked on over 40 datasets, e.g., ADE20K, COCO, Pascal-VOC Part, RefCOCO/RefCOCOg, ODinW and SeginW, HIPIE achieves the state-of-the-art results at various levels of image comprehension, including semantic-level (e.g., semantic segmentation), instance-level (e.g., panoptic/referring segmentation and object detection), as well as part-level (e.g., part/subpart segmentation) tasks. Our code is released at https://github.com/berkeley-hipie/HIPIE.
Abstract（参考訳）: Open-vocabulary Image segmentationは、任意のテキスト記述に従ってイメージをセマンティック領域に分割することを目的としている。しかし、複雑な視覚シーンは自然により単純な部品に分解され、複数のレベルの粒度で抽象化され、固有のセグメンテーションあいまいさをもたらす。この曖昧さを回避し、外部要因として扱う既存の方法とは異なり、このアプローチでは、異なる意味レベルを包含する階層表現を学習プロセスに積極的に組み込む。本稿では,分離されたテキスト画像融合機構と表現学習モジュールを提案する。さらに,これらのカテゴリー間のテキスト的特徴と視覚的特徴の相違を系統的に検討した。結果として得られたHIPIEは、統一フレームワーク内の階層的、oPen-vocabulary、unIvErsalセグメンテーションタスクに取り組む。 ADE20K、COCO、Pascal-VOC Part、RefCOCO/RefCOCOg、ODinW、SeginWなど40以上のデータセットでベンチマークされたHIPIEは、セマンティックレベル(セマンティックセグメンテーションなど)、インスタンスレベル(パンプト/リリファレンスセグメンテーションとオブジェクト検出など)、および部分レベル(パート/サブパートセグメンテーションなど)タスクを含む、さまざまなレベルのイメージ理解において、最先端の結果を達成する。私たちのコードはhttps://github.com/berkeley-hipie/hipieでリリースしています。

関連論文リスト

SPIN: Hierarchical Segmentation with Subpart Granularity in Natural Images [17.98848062686217]
自然画像のサブパートアノテーションを用いた最初の階層的セマンティックセマンティックセマンティクスデータセットを提案する。また,アルゴリズムが階層レベルの空間的関係と意味的関係をいかにうまく捉えるかを評価するために,新しい評価指標を2つ導入した。
論文参考訳（メタデータ） (2024-07-12T21:08:00Z)
USE: Universal Segment Embeddings for Open-Vocabulary Image Segmentation [33.11010205890195]
オープン語彙のイメージセグメンテーションにおける大きな課題は、これらのセグメンテーションをテキスト定義カテゴリに正確に分類することにある。この課題に対処するために、Universal Segment Embedding(USE)フレームワークを紹介します。本フレームワークは,1)大量のセグメントテキストペアを様々な粒度で効率的にキュレートするように設計されたデータパイプライン,2)テキスト定義のカテゴリに精度の高いセグメント分類を可能にする普遍的なセグメント埋め込みモデルからなる。
論文参考訳（メタデータ） (2024-06-07T21:41:18Z)
SegGPT: Segmenting Everything In Context [98.98487097934067]
コンテキスト内ですべてをセグメント化するモデルであるSegGPTを提示する。様々なセグメンテーションタスクを汎用的なインコンテキスト学習フレームワークに統合する。 SegGPTは、コンテクスト内推論を通じて、画像やビデオの任意のセグメンテーションタスクを実行することができる。
論文参考訳（メタデータ） (2023-04-06T17:59:57Z)
Open-world Semantic Segmentation via Contrasting and Clustering Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文参考訳（メタデータ） (2022-07-18T09:20:04Z)
Deep Hierarchical Semantic Segmentation [76.40565872257709]
階層的セマンティックセマンティックセグメンテーション(HSS)は、クラス階層の観点で視覚的観察を構造化、ピクセル単位で記述することを目的としている。 HSSNは、HSSを画素単位のマルチラベル分類タスクとしてキャストし、現在のセグメンテーションモデルに最小限のアーキテクチャ変更をもたらすだけである。階層構造によって引き起こされるマージンの制約により、HSSNはピクセル埋め込み空間を再評価し、よく構造化されたピクセル表現を生成する。
論文参考訳（メタデータ） (2022-03-27T15:47:44Z)
TransFGU: A Top-down Approach to Fine-Grained Unsupervised Semantic Segmentation [44.75300205362518]
教師なしセマンティックセグメンテーションは、手動のアノテーションを使わずに、低レベルの視覚的特徴の高レベルセマンティック表現を得ることを目的としている。本稿では, 非常に複雑なシナリオにおける細粒度セグメンテーションのための, トップダウンの教師なしセグメンテーションフレームワークを提案する。我々の結果は、トップダウンの教師なしセグメンテーションが、オブジェクト中心とシーン中心の両方のデータセットに対して堅牢であることを示している。
論文参考訳（メタデータ） (2021-12-02T18:59:03Z)
ISNet: Integrate Image-Level and Semantic-Level Context for Semantic Segmentation [64.56511597220837]
共起型視覚パターンは、コンテキスト情報の集約を共通のパラダイムとし、セマンティックイメージセグメンテーションのためのピクセル表現を強化する。既存のアプローチは、画像全体の観点からコンテキストをモデル化すること、すなわち、画像レベルのコンテキスト情報を集約することに焦点を当てている。本稿では,画像レベルと意味レベルの文脈情報を集約することで,ピクセル表現を増大させる手法を提案する。
論文参考訳（メタデータ） (2021-08-27T16:38:22Z)
Exploring Cross-Image Pixel Contrast for Semantic Segmentation [130.22216825377618]
完全教師付きセッティングにおけるセマンティックセグメンテーションのための画素単位のコントラストフレームワークを提案する。中心となる考え方は、同じセマンティッククラスに属するピクセルの埋め込みを、異なるクラスの埋め込みよりもよく似ているように強制することである。テスト中に余分なオーバーヘッドを伴わずに既存のセグメンテーションフレームワークに懸命に組み込むことができる。
論文参考訳（メタデータ） (2021-01-28T11:35:32Z)
Improving Semantic Segmentation via Decoupled Body and Edge Supervision [89.57847958016981]
既存のセグメンテーションアプローチは、グローバルコンテキストをモデル化することでオブジェクトの内部の一貫性を改善すること、あるいはマルチスケールの特徴融合によって境界に沿ったオブジェクトの詳細を洗練することを目的としている。本稿では,セマンティックセグメンテーションのための新しいパラダイムを提案する。我々の洞察は、セマンティックセグメンテーションの魅力ある性能には、画像の高頻度と低頻度に対応するオブジェクトのテキストボディとテキストエッジを具体的にモデル化する必要があるということである。さまざまなベースラインやバックボーンネットワークを備えた提案したフレームワークが,オブジェクト内部の一貫性とオブジェクト境界を向上させることを示す。
論文参考訳（メタデータ） (2020-07-20T12:11:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。