論文の概要: CLIP-DIY: CLIP Dense Inference Yields Open-Vocabulary Semantic
Segmentation For-Free
- arxiv url: http://arxiv.org/abs/2309.14289v1
- Date: Mon, 25 Sep 2023 16:52:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 14:41:50.575231
- Title: CLIP-DIY: CLIP Dense Inference Yields Open-Vocabulary Semantic
Segmentation For-Free
- Title(参考訳): CLIP-DIY: CLIP Dense Inferenceがオープンソースでセマンティックセマンティックセグメンテーションを無償で提供
- Authors: Monika Wysocza\'nska, Micha\"el Ramamonjisoa, Tomasz Trzci\'nski,
Oriane Sim\'eoni
- Abstract要約: CLIP-DIYと呼ばれるオープン語彙セマンティックセマンティックセマンティクス手法を提案する。
異なるサイズのパッチに対してCLIP分類機能を活用し、決定を単一のマップに集約する。
PASCAL VOCでは,最先端のゼロショットセマンティックセマンティックセマンティクスが得られ,COCOのベストメソッドと同等に動作する。
- 参考スコア(独自算出の注目度): 12.15899043709721
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of CLIP has opened the way for open-world image perception. The
zero-shot classification capabilities of the model are impressive but are
harder to use for dense tasks such as image segmentation. Several methods have
proposed different modifications and learning schemes to produce dense output.
Instead, we propose in this work an open-vocabulary semantic segmentation
method, dubbed CLIP-DIY, which does not require any additional training or
annotations, but instead leverages existing unsupervised object localization
approaches. In particular, CLIP-DIY is a multi-scale approach that directly
exploits CLIP classification abilities on patches of different sizes and
aggregates the decision in a single map. We further guide the segmentation
using foreground/background scores obtained using unsupervised object
localization methods. With our method, we obtain state-of-the-art zero-shot
semantic segmentation results on PASCAL VOC and perform on par with the best
methods on COCO.
- Abstract(参考訳): CLIPの出現は、オープンワールドイメージ認識の道を開いた。
モデルのゼロショット分類機能は印象的だが、画像セグメンテーションのような密集したタスクには使いづらい。
いくつかの方法で異なる修正と学習スキームを提案し、密集したアウトプットを作り出す。
代わりに、我々はCLIP-DIYと呼ばれるオープン語彙セマンティックセマンティックセマンティクス手法を提案し、これは追加のトレーニングやアノテーションを必要としないが、代わりに既存の教師なしオブジェクトローカライゼーションアプローチを活用する。
特にCLIP-DIYは、CLIP分類能力を異なるサイズのパッチに直接活用し、決定を単一のマップに集約するマルチスケールアプローチである。
さらに,教師なし物体定位法を用いて得られたフォアグラウンド/バックグラウンドスコアを用いたセグメンテーションをガイドする。
提案手法により,PASCAL VOC上での最先端のゼロショットセマンティックセマンティックセマンティックセマンティクス結果を取得し,COCO上でのベストメソッドと同等に実行する。
関連論文リスト
- Towards Open-Vocabulary Semantic Segmentation Without Semantic Labels [53.8817160001038]
画素レベルの理解にCLIP画像エンコーダを適用する新しい手法であるPixelCLIPを提案する。
セマンティックラベルを使わずにマスクを活用するという課題に対処するため,オンラインクラスタリングアルゴリズムを考案した。
PixelCLIPはCLIPよりも大幅にパフォーマンスが向上し、キャプション管理手法に比べて競合性が向上した。
論文 参考訳(メタデータ) (2024-09-30T01:13:03Z) - Frozen CLIP: A Strong Backbone for Weakly Supervised Semantic Segmentation [90.35249276717038]
弱教師付きセマンティックセグメンテーションのためのCLIPベースのシングルステージパイプラインであるWeCLIPを提案する。
具体的には、凍結したCLIPモデルを意味的特徴抽出のバックボーンとして適用する。
新しいデコーダは、最終予測のために抽出された意味的特徴を解釈するように設計されている。
論文 参考訳(メタデータ) (2024-06-17T03:49:47Z) - CLIP-DINOiser: Teaching CLIP a few DINO tricks for open-vocabulary semantic segmentation [31.264574799748903]
アノテーションを必要としないオープン語彙セマンティックセマンティックセマンティクス法を提案する。
使用済みの自己教師機能プロパティは,CLIP機能から直接学習可能であることを示す。
我々のCLIP-DINOiser法は,CLIPの1つの前方通過と2つの軽い畳み込み層のみを必要とする。
論文 参考訳(メタデータ) (2023-12-19T17:40:27Z) - Side Adapter Network for Open-Vocabulary Semantic Segmentation [69.18441687386733]
本稿では,Side Adapter Network (SAN) という,事前学習された視覚言語モデルを用いたオープン語彙セマンティックセマンティックセマンティックセマンティクスのための新しいフレームワークを提案する。
サイドネットワークは凍結したCLIPモデルにアタッチされ、ひとつはマスクの提案を予測し、もうひとつは注意バイアスを予測する。
トレーニング可能なパラメータは最大で18倍,推論速度は19倍に向上した。
論文 参考訳(メタデータ) (2023-02-23T18:58:28Z) - SegCLIP: Patch Aggregation with Learnable Centers for Open-Vocabulary
Semantic Segmentation [26.079055078561986]
オープン語彙セグメンテーションのためのCLIPベースのSegCLIPモデルを提案する。
主なアイデアは、テキストイメージペアのトレーニングを通じて、学習可能な中心をセマンティック領域に集めることである。
実験結果から,本モデルでは高いセグメンテーション精度が得られた。
論文 参考訳(メタデータ) (2022-11-27T12:38:52Z) - FreeSOLO: Learning to Segment Objects without Annotations [191.82134817449528]
我々は,単純なインスタンスセグメンテーションメソッドSOLO上に構築された自己教師型インスタンスセグメンテーションフレームワークであるFreeSOLOを紹介する。
また,本手法では,複雑なシーンからオブジェクトを教師なしで検出する,新たなローカライズ対応事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-24T16:31:44Z) - DenseCLIP: Extract Free Dense Labels from CLIP [130.3830819077699]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、オープンボキャブラリゼロショット画像認識において画期的な進歩を遂げた。
DenseCLIP+はSOTAトランスダクティブなゼロショットセマンティックセグメンテーション法を大きなマージンで上回る。
我々の発見は、DenseCLIPが高密度予測タスクの信頼性の高い新たな監視源となることを示唆している。
論文 参考訳(メタデータ) (2021-12-02T09:23:01Z) - Sparse Object-level Supervision for Instance Segmentation with Pixel
Embeddings [4.038011160363972]
ほとんどの最先端のインスタンスセグメンテーションメソッドは、密接な注釈付き画像でトレーニングする必要があります。
非空間埋め込みに基づく提案フリーセグメンテーション手法を提案する。
本研究では, 異なる顕微鏡モードにおける2次元および3次元分割問題の解法について検討した。
論文 参考訳(メタデータ) (2021-03-26T16:36:56Z) - Exploring Cross-Image Pixel Contrast for Semantic Segmentation [130.22216825377618]
完全教師付きセッティングにおけるセマンティックセグメンテーションのための画素単位のコントラストフレームワークを提案する。
中心となる考え方は、同じセマンティッククラスに属するピクセルの埋め込みを、異なるクラスの埋め込みよりもよく似ているように強制することである。
テスト中に余分なオーバーヘッドを伴わずに既存のセグメンテーションフレームワークに懸命に組み込むことができる。
論文 参考訳(メタデータ) (2021-01-28T11:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。