論文の概要: Open Vocabulary Panoptic Segmentation With Retrieval Augmentation
- arxiv url: http://arxiv.org/abs/2601.12779v1
- Date: Mon, 19 Jan 2026 07:16:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.788304
- Title: Open Vocabulary Panoptic Segmentation With Retrieval Augmentation
- Title(参考訳): Retrieval Augmentation を併用したオープンボキャブラリパノプティ・セグメンテーション
- Authors: Nafis Sadeq, Qingfeng Liu, Mostafa El-Khamy,
- Abstract要約: RetCLIPは、未確認クラスの性能を改善するための、検索強化された単眼セグメンテーション手法である。
COCOでトレーニングを行うと、ADE20kデータセット上で30.9 PQ, 19.3 mAP, 44.0 mIoUを示し、ベースライン上で+4.5 PQ, +2.5 mAP, +10.0 mIoUを絶対的に改善する。
- 参考スコア(独自算出の注目度): 7.1928553658752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given an input image and set of class names, panoptic segmentation aims to label each pixel in an image with class labels and instance labels. In comparison, Open Vocabulary Panoptic Segmentation aims to facilitate the segmentation of arbitrary classes according to user input. The challenge is that a panoptic segmentation system trained on a particular dataset typically does not generalize well to unseen classes beyond the training data. In this work, we propose RetCLIP, a retrieval-augmented panoptic segmentation method that improves the performance of unseen classes. In particular, we construct a masked segment feature database using paired image-text data. At inference time, we use masked segment features from the input image as query keys to retrieve similar features and associated class labels from the database. Classification scores for the masked segment are assigned based on the similarity between query features and retrieved features. The retrieval-based classification scores are combined with CLIP-based scores to produce the final output. We incorporate our solution with a previous SOTA method (FC-CLIP). When trained on COCO, the proposed method demonstrates 30.9 PQ, 19.3 mAP, 44.0 mIoU on the ADE20k dataset, achieving +4.5 PQ, +2.5 mAP, +10.0 mIoU absolute improvement over the baseline.
- Abstract(参考訳): 入力画像とクラス名のセットが与えられた場合、パン光学セグメンテーションは、各ピクセルをクラスラベルとインスタンスラベルで画像にラベル付けすることを目的としている。
一方,Open Vocabulary Panoptic Segmentationは,ユーザ入力に応じて任意のクラスのセグメンテーションを容易にすることを目的としている。
課題は、特定のデータセットでトレーニングされた汎視的セグメンテーションシステムが、トレーニングデータ以外の目に見えないクラスにうまく一般化できないことだ。
本研究では,未確認クラスの性能向上を目的とした検索拡張型パノプティックセグメンテーション手法であるRetCLIPを提案する。
特に、ペア画像テキストデータを用いたマスク付きセグメント特徴データベースを構築する。
推論時には、入力画像からのマスク付きセグメント特徴をクエリキーとして使用し、データベースから類似した特徴や関連するクラスラベルを検索する。
検索特徴と検索特徴との類似性に基づいて、マスク付きセグメントの分類スコアが割り当てられる。
検索に基づく分類スコアは、CLIPベースのスコアと組み合わせて最終的な出力を生成する。
我々は,従来のSOTA法(FC-CLIP)を取り入れた。
COCOでトレーニングを行うと、ADE20kデータセット上で30.9 PQ, 19.3 mAP, 44.0 mIoUを示し、ベースライン上で+4.5 PQ, +2.5 mAP, +10.0 mIoUを絶対的に改善する。
関連論文リスト
- Lidar Panoptic Segmentation in an Open World [50.094491113541046]
ライダーパノプティクス(LPS)は自動運転車の安全な配備に不可欠である。
LPSは、セマンティッククラスの事前に定義された語彙であるライダーポイントを認識し、セグメント化することを目的としている。
階層的な方法で入力クラウドのクラスタリングとオーバーセグメンテーションを提案し,次にバイナリポイントセグメント分類を行う。
論文 参考訳(メタデータ) (2024-09-22T00:10:20Z) - CLIP-VIS: Adapting CLIP for Open-Vocabulary Video Instance Segmentation [44.450243388665776]
我々はCLIP-VISと呼ばれる単純なエンコーダデコーダネットワークを提案し、CLIPをオープン語彙ビデオインスタンスセグメンテーションに適用する。
私たちのCLIP-VISは、凍結したCLIPを採用し、クラスに依存しないマスク生成、時間的トップK強調マッチング、重み付きオープン語彙分類を含む3つのモジュールを導入している。
論文 参考訳(メタデータ) (2024-03-19T05:27:04Z) - TAG: Guidance-free Open-Vocabulary Semantic Segmentation [6.236890292833387]
本稿では,訓練を行うTAGを提案する。
ガイダンスフリーのオープン語彙セグメンテーション。
外部データベースからクラスラベルを取得し、新しいシナリオに適応するための柔軟性を提供する。
我々のTAGは、クラス名を指定せずに、オープン語彙セグメンテーションのためのPascalVOC、PascalContext、ADE20Kの最先端結果を得る。
論文 参考訳(メタデータ) (2024-03-17T12:49:02Z) - CorrMatch: Label Propagation via Correlation Matching for
Semi-Supervised Semantic Segmentation [73.89509052503222]
本稿では、CorrMatchと呼ばれる、単純だが実行可能な半教師付きセマンティックセマンティックセマンティックセマンティクス手法を提案する。
相関写像は、同一カテゴリのクラスタリングピクセルを容易に実現できるだけでなく、良好な形状情報も含んでいることを観察する。
我々は,高信頼画素を拡大し,さらに掘り出すために,画素の対の類似性をモデル化して画素伝搬を行う。
そして、相関地図から抽出した正確なクラス非依存マスクを用いて、領域伝搬を行い、擬似ラベルを強化する。
論文 参考訳(メタデータ) (2023-06-07T10:02:29Z) - Open Vocabulary Semantic Segmentation with Patch Aligned Contrastive
Learning [82.70453633641466]
Patch Aligned Contrastive Learning (PACL)を導入する。
PACLは画像レベルの予測にも適用可能であることを示し、CLIPバックボーンで使用すると、ゼロショット分類精度が全般的に向上することを示した。
論文 参考訳(メタデータ) (2022-12-09T17:23:00Z) - SegCLIP: Patch Aggregation with Learnable Centers for Open-Vocabulary
Semantic Segmentation [26.079055078561986]
オープン語彙セグメンテーションのためのCLIPベースのSegCLIPモデルを提案する。
主なアイデアは、テキストイメージペアのトレーニングを通じて、学習可能な中心をセマンティック領域に集めることである。
実験結果から,本モデルでは高いセグメンテーション精度が得られた。
論文 参考訳(メタデータ) (2022-11-27T12:38:52Z) - Open-Vocabulary Universal Image Segmentation with MaskCLIP [24.74805434602145]
我々は、新しいコンピュータビジョンタスク、オープン語彙のユニバーサルイメージセグメンテーションに取り組む。
トレーニング済みのCLIPモデルを直接適用することで,まずベースライン手法を構築する。
次に, MaskCLIP Visual を用いた Transformer ベースのアプローチである MaskCLIP を開発した。
論文 参考訳(メタデータ) (2022-08-18T17:55:37Z) - Scaling up Multi-domain Semantic Segmentation with Sentence Embeddings [81.09026586111811]
ゼロショット設定に適用した場合、最先端の教師付き性能を実現するセマンティックセマンティックセマンティクスへのアプローチを提案する。
これは各クラスラベルを、クラスを記述する短い段落のベクトル値の埋め込みに置き換えることによって達成される。
結果として得られた200万以上の画像の統合セマンティックセグメンテーションデータセットは、7つのベンチマークデータセット上の最先端の教師付きメソッドと同等のパフォーマンスを達成するモデルをトレーニングすることができる。
論文 参考訳(メタデータ) (2022-02-04T07:19:09Z) - Per-Pixel Classification is Not All You Need for Semantic Segmentation [184.2905747595058]
マスク分類はセマンティックレベルのセグメンテーションタスクとインスタンスレベルのセグメンテーションタスクの両方を解くのに十分一般的である。
マスクの集合を予測する単純なマスク分類モデルであるMaskFormerを提案する。
提案手法は,現在の最先端セマンティック(ADE20Kでは55.6 mIoU)とパノプティックセグメンテーション(COCOでは52.7 PQ)モデルの両方に優れる。
論文 参考訳(メタデータ) (2021-07-13T17:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。