論文の概要: Mitigating Objectness Bias and Region-to-Text Misalignment for Open-Vocabulary Panoptic Segmentation
- arxiv url: http://arxiv.org/abs/2603.21386v1
- Date: Sun, 22 Mar 2026 20:11:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.392266
- Title: Mitigating Objectness Bias and Region-to-Text Misalignment for Open-Vocabulary Panoptic Segmentation
- Title(参考訳): Open-Vocabulary Panoptic Segmentation における目的性バイアスと領域間ミスアライメント
- Authors: Nikolay Kormushev, Josip Šarić, Matej Kristan,
- Abstract要約: オープン・ボキャブラリ・パン光学セグメンテーションのためのシンプルなモジュラー・フレームワークであるOVRCOATを紹介する。
COATはバックグラウンド/地上確率を更新し、語彙外オブジェクトのための高品質なマスクを保存する。
OVRCOATはADE20Kに新たな技術状況を設定し、Mapillary VistasとCityscapesに明確な利益をもたらす。
- 参考スコア(独自算出の注目度): 10.606571495908485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-vocabulary panoptic segmentation remains hindered by two coupled issues: (i) mask selection bias, where objectness heads trained on closed vocabularies suppress masks of categories not observed in training, and (ii) limited regional understanding in vision-language models such as CLIP, which were optimized for global image classification rather than localized segmentation. We introduce OVRCOAT, a simple, modular framework that tackles both. First, a CLIP-conditioned objectness adjustment (COAT) updates background/foreground probabilities, preserving high-quality masks for out-of-vocabulary objects. Second, an open-vocabulary mask-to-text refinement (OVR) strengthens CLIP's region-level alignment to improve classification of both seen and unseen classes with markedly lower memory cost than prior fine-tuning schemes. The two components combine to jointly improve objectness estimation and mask recognition, yielding consistent panoptic gains. Despite its simplicity, OVRCOAT sets a new state of the art on ADE20K (+5.5% PQ) and delivers clear gains on Mapillary Vistas and Cityscapes (+7.1% and +3% PQ, respectively). The code is available at: https://github.com/nickormushev/OVRCOAT
- Abstract(参考訳): オープン・ボキャブラリ・パノプティクス・セグメンテーションは、以下の2つの複合問題によって妨げられている。
一 閉じた語彙で訓練された客観性頭が訓練で観察されていないカテゴリーのマスクを抑えるマスク選択バイアス
(II) 局所的セグメンテーションよりもグローバルな画像分類に最適化されたCLIPのような視覚言語モデルにおける限られた地域的理解。
OVRCOATはシンプルでモジュラーなフレームワークで、両方に取り組みます。
第一に、CLIP条件付きオブジェクトネス調整(COAT)は、背景/地上の確率を更新し、語彙外オブジェクトのための高品質なマスクを保存する。
第二に、OVR(Open-vocabulary mask-to-text refinement)はCLIPの領域レベルのアライメントを強化し、従来の微調整方式よりもメモリコストが著しく低く、目に見えるクラスと見えないクラスの分類を改善する。
2つのコンポーネントを組み合わせることで、オブジェクトネス推定とマスク認識を共同で改善し、一貫したパノプティクスゲインが得られる。
その単純さにもかかわらず、OVRCOATはADE20K(+5.5% PQ)に新しい最先端技術を設定し、Mapillary VistasとCityscapes(+7.1%と+3% PQ)に明確な利益をもたらす。
コードは以下の通り。 https://github.com/nickormushev/OVRCOAT
関連論文リスト
- Seeing What Matters: Empowering CLIP with Patch Generation-to-Selection [54.21851618853518]
本稿では,CLIPのトレーニング効率を高めるために,パッチ生成と選択という簡潔で効果的なアプローチを提案する。
私たちのアプローチであるCLIP-PGSは、ゼロショット分類と検索タスクにおいて、新しい最先端結果を設定する。
論文 参考訳(メタデータ) (2025-03-21T12:10:38Z) - High-Quality Mask Tuning Matters for Open-Vocabulary Segmentation [109.19165503929992]
ここでは,CLIPのマスク分類能力を高めるために,生成されたマスクの代わりに接地トラスマスクを使用するMaskCLIP++を提案する。
低コストの微調整を経て、MaskCLIP++はマルチドメインデータセットのマスク分類性能を大幅に改善した。
我々は,A-847,PC-459,A-150,PC-59,PAS-20データセット上で+1.7,+2.3,+2.1,+3.1,+0.3 mIoUの性能改善を実現する。
論文 参考訳(メタデータ) (2024-12-16T05:44:45Z) - MTA-CLIP: Language-Guided Semantic Segmentation with Mask-Text Alignment [53.235290505274676]
CLIPのような大規模視覚言語モデルはセマンティックセグメンテーションのパフォーマンスを向上させることができる。
マスクレベルの視覚言語アライメントを利用した新しいフレームワークであるMTA-CLIPを紹介する。
MTA-CLIPは最先端を達成し、ベンチマークデータセットで平均2.8%と1.3%の先行研究を上回っている。
論文 参考訳(メタデータ) (2024-07-31T14:56:42Z) - Open-Vocabulary Semantic Segmentation with Mask-adapted CLIP [45.81698881151867]
Open-vocabulary semantic segmentationは、トレーニング中に見られなかったかもしれないテキスト記述に従って、イメージをセマンティック領域に分割することを目的としている。
最近の2段階の手法では、まずクラスに依存しないマスクの提案を生成し、次にCLIPなどの事前訓練された視覚言語モデルを利用してマスク付き領域を分類する。
マスクされた画像領域とその対応するテキスト記述の集合上でCLIPを微調整する。
特に、COCOで訓練しADE20K-150で評価すると、我々の最良のモデルは29.6% mIoUであり、これは以前の状態より+8.5%高い。
論文 参考訳(メタデータ) (2022-10-09T02:57:32Z) - Image Inpainting by End-to-End Cascaded Refinement with Mask Awareness [66.55719330810547]
任意の欠落領域を塗りつぶすことは、様々なマスクされた領域で有効な特徴を学ぶことは非自明だから難しい。
符号化フェーズにおける欠落領域のマルチスケール特徴を学習する新しいマスク対応インペイントソリューションを提案する。
私たちのフレームワークは、3つの公開データセットに関する広範な実験を通じて定量的および定性的に検証されます。
論文 参考訳(メタデータ) (2021-04-28T13:17:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。