論文の概要: Adapting Vision-Language Model with Fine-grained Semantics for Open-Vocabulary Segmentation
- arxiv url: http://arxiv.org/abs/2409.16278v2
- Date: Mon, 09 Dec 2024 12:16:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:49:02.890803
- Title: Adapting Vision-Language Model with Fine-grained Semantics for Open-Vocabulary Segmentation
- Title(参考訳): 開語彙セグメンテーションのための細粒度セマンティクスを用いた視覚言語モデルの適用
- Authors: Yong Xien Chng, Xuchong Qiu, Yizeng Han, Kai Ding, Wan Ding, Gao Huang,
- Abstract要約: オープン語彙のセグメンテーションは、主にマスク生成ではなく、マスク分類によってボトルネックとなる。
本稿では,この制限に対処するためのFISA法を提案する。
FISAは、視覚符号化プロセスの初期に、この重要な意味情報を明示的に統合することにより、抽出した視覚的特徴をきめ細かな意味認識で強化する。
- 参考スコア(独自算出の注目度): 42.020470627552136
- License:
- Abstract: Despite extensive research, open-vocabulary segmentation methods still struggle to generalize across diverse domains. To reduce the computational cost of adapting Vision-Language Models (VLMs) while preserving their pre-trained knowledge, most methods freeze the VLMs for mask classification and train only the mask generator. However, our comprehensive analysis reveals a surprising insight: open-vocabulary segmentation is primarily bottlenecked by mask classification, not mask generation. This discovery prompts us to rethink the existing paradigm and explore an alternative approach. Instead of freezing the VLM, we propose to freeze the pre-trained mask generator and focus on optimizing the mask classifier. Building on the observation that VLMs pre-trained on global-pooled image-text features often fail to capture fine-grained semantics necessary for effective mask classification, we propose a novel Fine-grained Semantic Adaptation (FISA) method to address this limitation. FISA enhances the extracted visual features with fine-grained semantic awareness by explicitly integrating this crucial semantic information early in the visual encoding process. As our method strategically optimizes only a small portion of the VLM's parameters, it enjoys the efficiency of adapting to new data distributions while largely preserving the valuable VLM pre-trained knowledge. Extensive ablation studies confirm the superiority of our approach. Notably, FISA achieves new state-of-the-art results across multiple representative benchmarks, improving performance by up to +1.0 PQ and +3.0 mIoU and reduces training costs by nearly 5x compared to previous best methods. Our code and data will be made public.
- Abstract(参考訳): 広範な研究にもかかわらず、オープン語彙分割法は様々な領域をまたいだ一般化に苦慮している。
トレーニング済みの知識を保ちながらビジョンランゲージモデル(VLM)を適用する際の計算コストを削減するため、ほとんどの手法はマスク分類のためのVLMを凍結し、マスクジェネレータのみを訓練する。
オープン語彙のセグメンテーションは、マスク生成ではなく、主にマスク分類によってボトルネックとなる。
この発見は、既存のパラダイムを再考し、代替アプローチを模索するきっかけとなります。
VLMを凍結する代わりに、トレーニング済みのマスクジェネレータを凍結し、マスク分類器の最適化に集中することを提案する。
マスク分類に必要となる細粒度セマンティック・セマンティック・アダプション(FISA)法を提案する。この制限に対処するため,VLMが予め訓練された画像テキストの特徴に基づいて,有効なマスク分類に必要な細粒度セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・アダプティブ(FISA)法を提案する。
FISAは、視覚符号化プロセスの初期に、この重要な意味情報を明示的に統合することにより、抽出した視覚的特徴をきめ細かな意味認識で強化する。
提案手法は,VLMのパラメータのごく一部だけを戦略的に最適化するので,価値あるVLM事前学習知識を保ちながら,新しいデータ分布に適応する効率を享受できる。
広範囲にわたるアブレーション研究は、我々のアプローチの優位性を確認している。
特に、FISAは、複数の代表ベンチマークにまたがる新しい最先端の結果を達成し、パフォーマンスを+1.0 PQと+3.0 mIoUで改善し、以前のベストメソッドと比べてトレーニングコストを5倍近く削減する。
私たちのコードとデータは公開されます。
関連論文リスト
- MaskInversion: Localized Embeddings via Optimization of Explainability Maps [49.50785637749757]
MaskInversionは、テスト時にマスクによって指定されたクエリ画像領域に対するコンテキスト認識の埋め込みを生成する。
オープン語彙のクラス検索、表現理解の参照、局所的なキャプションや画像生成など、幅広いタスクに使用することができる。
論文 参考訳(メタデータ) (2024-07-29T14:21:07Z) - ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders [53.3185750528969]
Masked AutoEncoders (MAE)は、堅牢な自己管理フレームワークとして登場した。
データに依存しないColorMAEという手法を導入し、ランダムノイズをフィルタすることで異なる二元マスクパターンを生成する。
ランダムマスキングと比較して,下流タスクにおける戦略の優位性を示す。
論文 参考訳(メタデータ) (2024-07-17T22:04:00Z) - Applying Unsupervised Semantic Segmentation to High-Resolution UAV Imagery for Enhanced Road Scene Parsing [12.558144256470827]
新規な教師なし道路解析フレームワークについて紹介する。
提案手法は,手動のアノテーションを使わずに,開発データセット上で89.96%のmIoUの平均インターセクションを実現する。
論文 参考訳(メタデータ) (2024-02-05T13:16:12Z) - Mask-free OVIS: Open-Vocabulary Instance Segmentation without Manual
Mask Annotations [86.47908754383198]
Open-Vocabulary (OV) 法は、大規模な画像キャプチャペアと視覚言語モデルを利用して、新しいカテゴリを学習する。
提案手法は,イメージキャプションペアに存在するオブジェクトに対して,事前学習された視覚言語モデルの局所化能力を活用することで,擬似マスクアノテーションを生成する。
擬似マスクを用いてトレーニングした手法は,MS-COCOデータセットとOpenImagesデータセットのmAPスコアを大幅に改善する。
論文 参考訳(メタデータ) (2023-03-29T17:58:39Z) - Improving self-supervised representation learning via sequential
adversarial masking [12.176299580413097]
マスキングベースのプレテキストタスクはNLPを超えて拡張され、コンピュータビジョンにおいて有用な事前学習の目的として機能する。
敵に異なる制約で連続的にマスクを生成する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-12-16T04:25:43Z) - Uniform Masking Prevails in Vision-Language Pretraining [26.513450527203453]
Masked Language Modeling (MLM) は、Vision-Language (VL) プリトレーニングの重要なコンポーネントであることが証明されている。
本稿では,マスキング率の増加が画像テキストマッチング(ITM)タスクの増大につながることを示す。
論文 参考訳(メタデータ) (2022-12-10T04:02:19Z) - Exploiting Shape Cues for Weakly Supervised Semantic Segmentation [15.791415215216029]
弱教師付きセマンティックセマンティックセグメンテーション (WSSS) は、画像レベルのラベルのみをトレーニング用として、画素単位のクラス予測を生成することを目的としている。
畳み込みニューラルネットワーク(CNN)のテクスチャバイアス特性を補うために形状情報を活用することを提案する。
我々は、クラスと色親和性の両方を考慮した新しい改良手法により、オンライン方式で予測をさらに洗練する。
論文 参考訳(メタデータ) (2022-08-08T17:25:31Z) - Intelligent Masking: Deep Q-Learning for Context Encoding in Medical
Image Analysis [48.02011627390706]
我々は,対象地域を排除し,事前訓練の手順を改善する,新たな自己指導型アプローチを開発した。
予測モデルに対してエージェントを訓練することで、下流の分類タスクで抽出した意味的特徴を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-03-25T19:05:06Z) - PFENet++: Boosting Few-shot Semantic Segmentation with the
Noise-filtered Context-aware Prior Mask [62.37727055343632]
「Few-Shot」のためのガイド機能強化ネットワークで提案された以前のマスクガイダンスを再考する。
本稿では,クエリ画像中のオブジェクトの配置を改善するために,近隣のセマンティックキューを活用するコンテキスト対応プリエントマスク(CAPM)を提案する。
我々は、不要な応答をスクリーニングするために、軽量ノイズ抑圧モジュール(NSM)を組み込むことにより、さらに一歩前進する。
論文 参考訳(メタデータ) (2021-09-28T15:07:43Z) - Per-Pixel Classification is Not All You Need for Semantic Segmentation [184.2905747595058]
マスク分類はセマンティックレベルのセグメンテーションタスクとインスタンスレベルのセグメンテーションタスクの両方を解くのに十分一般的である。
マスクの集合を予測する単純なマスク分類モデルであるMaskFormerを提案する。
提案手法は,現在の最先端セマンティック(ADE20Kでは55.6 mIoU)とパノプティックセグメンテーション(COCOでは52.7 PQ)モデルの両方に優れる。
論文 参考訳(メタデータ) (2021-07-13T17:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。