論文の概要: Semantic Refocused Tuning for Open-Vocabulary Panoptic Segmentation
- arxiv url: http://arxiv.org/abs/2409.16278v1
- Date: Tue, 24 Sep 2024 17:50:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 04:57:52.735885
- Title: Semantic Refocused Tuning for Open-Vocabulary Panoptic Segmentation
- Title(参考訳): オープンボキャブラリパノプティブセグメンテーションのためのセマンティックリフォーカスチューニング
- Authors: Yong Xien Chng, Xuchong Qiu, Yizeng Han, Kai Ding, Wan Ding, Gao Huang,
- Abstract要約: Open-vocabulary Panoptic segmentationは、イメージを意味のあるマスクに正確に分割することを目的とした、新たなタスクである。
マスク分類は、オープンボキャブ・パノプティクスのセグメンテーションにおける主要なパフォーマンスボトルネックである。
オープンボキャブ・パノプティクスのセグメンテーションを大幅に強化する新しいフレームワークであるセマンティック・リフォーカス・タニングを提案する。
- 参考スコア(独自算出の注目度): 42.020470627552136
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Open-vocabulary panoptic segmentation is an emerging task aiming to accurately segment the image into semantically meaningful masks based on a set of texts. Despite existing efforts, it remains challenging to develop a high-performing method that generalizes effectively across new domains and requires minimal training resources. Our in-depth analysis of current methods reveals a crucial insight: mask classification is the main performance bottleneck for open-vocab. panoptic segmentation. Based on this, we propose Semantic Refocused Tuning (SMART), a novel framework that greatly enhances open-vocab. panoptic segmentation by improving mask classification through two key innovations. First, SMART adopts a multimodal Semantic-guided Mask Attention mechanism that injects task-awareness into the regional information extraction process. This enables the model to capture task-specific and contextually relevant information for more effective mask classification. Second, it incorporates Query Projection Tuning, which strategically fine-tunes the query projection layers within the Vision Language Model (VLM) used for mask classification. This adjustment allows the model to adapt the image focus of mask tokens to new distributions with minimal training resources, while preserving the VLM's pre-trained knowledge. Extensive ablation studies confirm the superiority of our approach. Notably, SMART sets new state-of-the-art results, demonstrating improvements of up to +1.3 PQ and +5.4 mIoU across representative benchmarks, while reducing training costs by nearly 10x compared to the previous best method. Our code and data will be released.
- Abstract(参考訳): オープン・ボキャブラリ・パノプティクス・セグメンテーション(英: Open-vocabulary panoptic segmentation)は、テキストの集合に基づいて、画像を意味のあるマスクに正確に分割することを目的とした新しいタスクである。
既存の取り組みにもかかわらず、新しいドメインを効果的に一般化し、最小限のトレーニングリソースを必要とするハイパフォーマンスな手法を開発することは依然として困難である。
マスク分類はオープンボキャブの主なパフォーマンスボトルネックである。
汎視的セグメンテーション
そこで我々は,オープンボキャブを大幅に強化する新しいフレームワークであるセマンティック・リフォーカス・チューニング(SMART)を提案する。
2つの重要な革新を通じて マスクの分類を改善することで
まず、SMARTは、タスク認識を地域情報抽出プロセスに注入するマルチモーダルなセマンティック誘導マスク注意機構を採用する。
これにより、より効果的なマスク分類のために、タスク固有の、コンテキストに関連のある情報をキャプチャできる。
第2に、クエリプロジェクションチューニング(Query Projection Tuning)が組み込まれており、マスク分類に使用されるビジョン言語モデル(VLM)内のクエリプロジェクション層を戦略的に微調整する。
この調整により、VLMの事前訓練された知識を保ちながら、マスクトークンのイメージフォーカスを最小限のトレーニングリソースで新しいディストリビューションに適応させることができる。
広範囲にわたるアブレーション研究は、我々のアプローチの優位性を確認している。
特にSMARTは、新しい最先端の結果を設定し、最大+1.3 PQと+5.4 mIoUの改善を代表ベンチマークで示した。
コードとデータは公開されます。
関連論文リスト
- FrozenSeg: Harmonizing Frozen Foundation Models for Open-Vocabulary Segmentation [47.0028071183214]
FrozenSegは、局所化基盤モデル(SAMなど)とViLモデル(CLIPなど)から抽出した意味知識から空間知識を統合するように設計されている。
FrozenSegは、さまざまなセグメンテーションベンチマークにまたがって最先端の結果を前進させ、COCOパン光学データのみにトレーニングし、ゼロショットでテストする。
論文 参考訳(メタデータ) (2024-09-05T13:36:50Z) - OpenDAS: Open-Vocabulary Domain Adaptation for 2D and 3D Segmentation [54.98688607911399]
視覚言語モデル(VLM)にドメイン固有の知識を注入するオープン語彙ドメイン適応の課題を提案する。
既存のVLM適応手法では、ベース(トレーニング)クエリのパフォーマンスが向上するが、新しいクエリ上でのVLMのオープンセット能力を維持できない。
我々のアプローチは、新しいクラスにおける元のVLMを一貫して上回るパラメータ効率の手法である。
論文 参考訳(メタデータ) (2024-05-30T15:16:06Z) - Downstream Task Guided Masking Learning in Masked Autoencoders Using
Multi-Level Optimization [42.82742477950748]
Masked Autoencoder (MAE) は視覚表現学習における自己教師付き事前学習のための重要な手法である。
プリトレーニング中に最適なマスキング戦略を学習する新しいフレームワークであるMulti-level Optimized Mask Autoencoder (MLO-MAE)を紹介する。
視覚表現学習におけるMLO-MAEの進歩について検討した。
論文 参考訳(メタデータ) (2024-02-28T07:37:26Z) - Mask-free OVIS: Open-Vocabulary Instance Segmentation without Manual
Mask Annotations [86.47908754383198]
Open-Vocabulary (OV) 法は、大規模な画像キャプチャペアと視覚言語モデルを利用して、新しいカテゴリを学習する。
提案手法は,イメージキャプションペアに存在するオブジェクトに対して,事前学習された視覚言語モデルの局所化能力を活用することで,擬似マスクアノテーションを生成する。
擬似マスクを用いてトレーニングした手法は,MS-COCOデータセットとOpenImagesデータセットのmAPスコアを大幅に改善する。
論文 参考訳(メタデータ) (2023-03-29T17:58:39Z) - Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。
また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。
提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T09:51:41Z) - Exploiting Shape Cues for Weakly Supervised Semantic Segmentation [15.791415215216029]
弱教師付きセマンティックセマンティックセグメンテーション (WSSS) は、画像レベルのラベルのみをトレーニング用として、画素単位のクラス予測を生成することを目的としている。
畳み込みニューラルネットワーク(CNN)のテクスチャバイアス特性を補うために形状情報を活用することを提案する。
我々は、クラスと色親和性の両方を考慮した新しい改良手法により、オンライン方式で予測をさらに洗練する。
論文 参考訳(メタデータ) (2022-08-08T17:25:31Z) - MST: Masked Self-Supervised Transformer for Visual Representation [52.099722121603506]
Transformerは自然言語処理(NLP)における自己教師型事前学習に広く利用されている。
我々は、画像の局所的コンテキストを明示的にキャプチャできる、MSTと呼ばれる新しいMasked Self-supervised Transformerアプローチを提案する。
MSTは、線形評価による300エポック事前トレーニングのみを使用して、DeiT-Sで76.9%のTop-1精度を達成する。
論文 参考訳(メタデータ) (2021-06-10T11:05:18Z) - Improving Self-supervised Pre-training via a Fully-Explored Masked
Language Model [57.77981008219654]
Masked Language Model (MLM)フレームワークは、自己教師型言語事前学習に広く採用されている。
そこで本研究では,テキストシーケンスを複数の非重複セグメントに分割するマスキング手法を提案する。
論文 参考訳(メタデータ) (2020-10-12T21:28:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。