論文の概要: Harnessing Vision Foundation Models for High-Performance, Training-Free Open Vocabulary Segmentation
- arxiv url: http://arxiv.org/abs/2411.09219v1
- Date: Thu, 14 Nov 2024 06:31:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:24:38.022414
- Title: Harnessing Vision Foundation Models for High-Performance, Training-Free Open Vocabulary Segmentation
- Title(参考訳): ハイパフォーマンス学習自由語彙セグメンテーションのためのハーネスングビジョン基礎モデル
- Authors: Yuheng Shi, Minjing Dong, Chang Xu,
- Abstract要約: 本稿では,CLIP と DINO が抽出した特徴をサブイメージから切り離し,SAM のエンコーダを利用してグローバルアグリゲーションの相関行列を生成する,トレーニング不要なフレームワーク Trident を紹介する。
Tridentは、現在のSOTAと比較して8つのベンチマークでmIoUを大幅に改善し、44.4から48.6.Codeに増加した。
- 参考スコア(独自算出の注目度): 26.786890883280062
- License:
- Abstract: While Contrastive Language-Image Pre-training (CLIP) has advanced open-vocabulary predictions, its performance on semantic segmentation remains suboptimal. This shortfall primarily stems from its spatial-invariant semantic features and constrained resolution. While previous adaptations addressed spatial invariance semantic by modifying the self-attention in CLIP's image encoder, the issue of limited resolution remains unexplored. Different from previous segment-then-splice methods that segment sub-images via a sliding window and splice the results, we introduce a splice-then-segment paradigm that incorporates Segment-Anything Model (SAM) to tackle the resolution issue since SAM excels at extracting fine-grained semantic correlations from high-resolution images. Specifically, we introduce Trident, a training-free framework that first splices features extracted by CLIP and DINO from sub-images, then leverages SAM's encoder to create a correlation matrix for global aggregation, enabling a broadened receptive field for effective segmentation. Besides, we propose a refinement strategy for CLIP's coarse segmentation outputs by transforming them into prompts for SAM, further enhancing the segmentation performance. Trident achieves a significant improvement in the mIoU across eight benchmarks compared with the current SOTA, increasing from 44.4 to 48.6.Code is available at https://github.com/YuHengsss/Trident.
- Abstract(参考訳): Contrastive Language-Image Pre-Training (CLIP) は、先進的な開語彙予測を持つが、セマンティックセグメンテーションにおける性能は、まだ準最適である。
この欠点は、主に空間不変な意味的特徴と制約された分解能に由来する。
以前の適応では、CLIPのイメージエンコーダの自己アテンションを変更することで空間的不変性に対処していたが、解像度制限の問題はまだ未解決のままである。
スライディングウインドウを介してサブイメージを分割して結果をスライスする従来のセグメンテーション・スライス法とは違って,Segment-Anything Model(SAM)を組み込んだスライス・スライス・スライス・パラダイムを導入する。
具体的には,CLIP と DINO が抽出した特徴をサブイメージから抽出し,SAM のエンコーダを利用してグローバルアグリゲーションの相関行列を生成する。
さらに,CLIPの粗いセグメンテーション出力をSAMのプロンプトに変換し,セグメンテーション性能をさらに向上させることにより,CLIPの粗いセグメンテーション出力の洗練戦略を提案する。
Tridentは8つのベンチマークでmIoUを大幅に改善し、現在のSOTAと比べて44.4から48.6.Codeはhttps://github.com/YuHengss/Tridentで入手できる。
関連論文リスト
- ClearCLIP: Decomposing CLIP Representations for Dense Vision-Language Inference [32.852004564832455]
我々はCLIPのアーキテクチャを再検討し、残余接続をセグメンテーション品質を劣化させるノイズの主源として同定する。
オープン語彙セマンティックセグメンテーションを強化するためにCLIPの表現を分解する新しいアプローチであるClearCLIPを提案する。
論文 参考訳(メタデータ) (2024-07-17T09:52:20Z) - Frozen CLIP: A Strong Backbone for Weakly Supervised Semantic Segmentation [90.35249276717038]
弱教師付きセマンティックセグメンテーションのためのCLIPベースのシングルステージパイプラインであるWeCLIPを提案する。
具体的には、凍結したCLIPモデルを意味的特徴抽出のバックボーンとして適用する。
新しいデコーダは、最終予測のために抽出された意味的特徴を解釈するように設計されている。
論文 参考訳(メタデータ) (2024-06-17T03:49:47Z) - PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z) - Multi-Scale Semantic Segmentation with Modified MBConv Blocks [29.026787888644474]
セマンティックセグメンテーションに適したMBConvブロックの新規適応を導入する。
これらの変更を実装することで、Cityscapesのテストおよび検証データセットにおいて、IoU(Intersection over Union)の84.5%と84.0%という印象的な平均値が得られる。
論文 参考訳(メタデータ) (2024-02-07T07:01:08Z) - Generalizable Entity Grounding via Assistance of Large Language Model [77.07759442298666]
本稿では,長いキャプションから密接な視覚的実体を抽出する手法を提案する。
本研究では,意味代名詞の抽出に大規模なマルチモーダルモデル,エンティティレベルのセグメンテーションを生成するクラス-aセグメンテーションモデル,および各セグメンテーション名詞と対応するセグメンテーションマスクを関連付けるマルチモーダル特徴融合モジュールを利用する。
論文 参考訳(メタデータ) (2024-02-04T16:06:05Z) - SmooSeg: Smoothness Prior for Unsupervised Semantic Segmentation [27.367986520072147]
教師なしセマンティックセグメンテーションは、手動のアノテーションなしでイメージをセマンティックグループに分割する難しいタスクである。
本研究では,SmooSegという手法を提案する。SmooSegは,観察中の近接性関係をスムーズな信号としてモデル化する自己教師付き学習手法である。
SmooSegは3つのデータセットのピクセル精度でSTEGOを著しく上回っている。
論文 参考訳(メタデータ) (2023-10-27T03:29:25Z) - [CLS] Token is All You Need for Zero-Shot Semantic Segmentation [60.06653755695356]
本稿では,事前学習された視覚言語モデルCLIPに基づく,恥ずかしいほどシンプルで効果的なゼロショットセマンティックセマンティックセマンティックセマンティクス(ZS3)法を提案する。
具体的には、テキストブランチから出力される[text]トークンを補助的なセマンティックプロンプトとして使用し、ViTベースのビジュアルエンコーダの浅い層におけるナビゲーション[text]トークンを置き換える。
提案したZS3法は,SOTA性能を達成し,その数発のセマンティックセマンティックセグメンテーション法と同等である。
論文 参考訳(メタデータ) (2023-04-13T01:35:07Z) - Hierarchical Dense Correlation Distillation for Few-Shot Segmentation [46.696051965252934]
Few-shot semantic segmentation (FSS) は、いくつかのアノテーションだけで見えないクラスをセグメンテーションするクラスに依存しないモデルを構築することを目的としている。
我々は、トランスアーキテクチャに基づく階層的分離マッチングネットワーク(HDMNet)マイニングピクセルレベルのサポート相関を設計する。
本稿では,列車セットの過度適合を低減し,粗い分解から意味対応を生かした相関蒸留を導入し,細粒度セグメンテーションを向上するマッチングモジュールを提案する。
論文 参考訳(メタデータ) (2023-03-26T08:13:12Z) - Learning Open-vocabulary Semantic Segmentation Models From Natural
Language Supervision [49.905448429974804]
オープン語彙セマンティックセマンティックセグメンテーション(OVS)は,事前に定義された閉集合のカテゴリではなく,任意のクラスのオブジェクトをセグメンテーションすることを目的としている。
OVSegmentorと呼ばれるOVSのトランスフォーマーベースモデルを提案する。
プレトレーニングには3%のデータ(4M vs 134M)のみを用いることで,最先端手法よりも優れたセグメンテーション結果が得られる。
論文 参考訳(メタデータ) (2023-01-22T13:10:05Z) - DenseCLIP: Extract Free Dense Labels from CLIP [130.3830819077699]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、オープンボキャブラリゼロショット画像認識において画期的な進歩を遂げた。
DenseCLIP+はSOTAトランスダクティブなゼロショットセマンティックセグメンテーション法を大きなマージンで上回る。
我々の発見は、DenseCLIPが高密度予測タスクの信頼性の高い新たな監視源となることを示唆している。
論文 参考訳(メタデータ) (2021-12-02T09:23:01Z) - Self-Prediction for Joint Instance and Semantic Segmentation of Point
Clouds [41.75579185647845]
我々は,3次元のインスタンスと点雲のセマンティックセグメンテーションのための新たな学習手法であるSelf-Predictionを開発した。
本手法は,S3DISとShapeNetのインスタンスセグメンテーション結果と,S3DISとShapeNetのセグメンテーション結果に匹敵するセグメンテーション結果を得る。
論文 参考訳(メタデータ) (2020-07-27T07:58:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。