論文の概要: CLIP-DINOiser: Teaching CLIP a few DINO tricks
- arxiv url: http://arxiv.org/abs/2312.12359v1
- Date: Tue, 19 Dec 2023 17:40:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 14:39:35.671621
- Title: CLIP-DINOiser: Teaching CLIP a few DINO tricks
- Title(参考訳): CLIP-Dinoiser:CLIPにDINOのトリックを教える
- Authors: Monika Wysocza\'nska, Oriane Sim\'eoni, Micha\"el Ramamonjisoa, Andrei
Bursuc, Tomasz Trzci\'nski, Patrick P\'erez
- Abstract要約: アノテーションを必要としないゼロショットオープン語彙セマンティックセマンティックセマンティクス法を提案する。
使用済みの自己教師機能プロパティは,CLIP機能から直接学習可能であることを示す。
我々のCLIP-DINOiser法は,CLIPの1つの前方通過と2つの軽い畳み込み層のみを必要とする。
- 参考スコア(独自算出の注目度): 19.16246737190267
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The popular CLIP model displays impressive zero-shot capabilities thanks to
its seamless interaction with arbitrary text prompts. However, its lack of
spatial awareness makes it unsuitable for dense computer vision tasks, e.g.,
semantic segmentation, without an additional fine-tuning step that often uses
annotations and can potentially suppress its original open-vocabulary
properties. Meanwhile, self-supervised representation methods have demonstrated
good localization properties without human-made annotations nor explicit
supervision. In this work, we take the best of both worlds and propose a
zero-shot open-vocabulary semantic segmentation method, which does not require
any annotations. We propose to locally improve dense MaskCLIP features,
computed with a simple modification of CLIP's last pooling layer, by
integrating localization priors extracted from self-supervised features. By
doing so, we greatly improve the performance of MaskCLIP and produce smooth
outputs. Moreover, we show that the used self-supervised feature properties can
directly be learnt from CLIP features therefore allowing us to obtain the best
results with a single pass through CLIP model. Our method CLIP-DINOiser needs
only a single forward pass of CLIP and two light convolutional layers at
inference, no extra supervision nor extra memory and reaches state-of-the-art
results on challenging and fine-grained benchmarks such as COCO, Pascal
Context, Cityscapes and ADE20k. The code to reproduce our results is available
at https://github.com/wysoczanska/clip_dinoiser.
- Abstract(参考訳): 人気のCLIPモデルは、任意のテキストプロンプトとのシームレスな相互作用のおかげで、印象的なゼロショット機能を示している。
しかし、空間認識の欠如は、例えばセマンティックセグメンテーションのような密集したコンピュータビジョンタスクには不向きであり、アノテーションを頻繁に使用し、オリジナルのボキャブラリープロパティを抑制できる追加の微調整ステップは不要である。
一方,自己教師あり表現法は,人為的なアノテーションや明示的な監督を伴わない,適切な局所化特性を示している。
本研究では,両世界の最善を尽くし,アノテーションを必要としないゼロショットのオープン語彙セマンティックセマンティックセマンティックセマンティクス法を提案する。
自己教師機能から抽出した局所化事前情報を統合することにより,CLIPの最終プーリング層を簡易に修正したMaskCLIP機能を局所的に改善することを提案する。
これにより、MaskCLIPの性能を大幅に改善し、スムーズな出力を生成する。
さらに,使用済みの自己教師付特徴特性をクリップ特徴から直接学習できることから,単一パススルークリップモデルで最高の結果を得ることができることを示した。
私たちの方法であるCLIP-DINOiserでは,COCO,Pascal Context,Cityscapes,ADE20kなどの難易度の高いベンチマークにおいて,CLIPの1つの前方パスと2つのライト畳み込み層,余分な監視と余分なメモリを必要とせず,最新かつ詳細な結果が得られる。
結果を再現するコードはhttps://github.com/wysoczanska/clip_dinoiserで閲覧できます。
関連論文リスト
- Self-Calibrated CLIP for Training-Free Open-Vocabulary Segmentation [19.749490092520006]
Self-Calibrated CLIP (SC-CLIP) は、CLIPを校正してより微細な言語表現を生成する訓練不要の手法である。
SC-CLIPはバニラCLIP ViT-L/14の性能を6.8倍向上させる。
論文 参考訳(メタデータ) (2024-11-24T15:14:05Z) - Frozen CLIP: A Strong Backbone for Weakly Supervised Semantic Segmentation [90.35249276717038]
弱教師付きセマンティックセグメンテーションのためのCLIPベースのシングルステージパイプラインであるWeCLIPを提案する。
具体的には、凍結したCLIPモデルを意味的特徴抽出のバックボーンとして適用する。
新しいデコーダは、最終予測のために抽出された意味的特徴を解釈するように設計されている。
論文 参考訳(メタデータ) (2024-06-17T03:49:47Z) - Cascade-CLIP: Cascaded Vision-Language Embeddings Alignment for Zero-Shot Semantic Segmentation [72.47110803885235]
ゼロショットセマンティックセグメンテーションのための新しいフレームワークCascade-CLIPを提案する。
このフレームワークはCOCO-Stuff, Pascal-VOC, Pascal-Contextといったセグメンテーションベンチマークにおいて優れたゼロショット性能を実現する。
論文 参考訳(メタデータ) (2024-06-02T08:32:51Z) - CLIP-DIY: CLIP Dense Inference Yields Open-Vocabulary Semantic
Segmentation For-Free [12.15899043709721]
CLIP-DIYと呼ばれるオープン語彙セマンティックセマンティックセマンティクス手法を提案する。
異なるサイズのパッチに対してCLIP分類機能を活用し、決定を単一のマップに集約する。
PASCAL VOCでは,最先端のゼロショットセマンティックセマンティックセマンティクスが得られ,COCOのベストメソッドと同等に動作する。
論文 参考訳(メタデータ) (2023-09-25T16:52:59Z) - TagCLIP: Improving Discrimination Ability of Open-Vocabulary Semantic Segmentation [53.974228542090046]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、最近、ピクセルレベルのゼロショット学習タスクにおいて大きな可能性を示している。
CLIPのテキストとパッチの埋め込みを利用してセマンティックマスクを生成する既存のアプローチは、しばしば目に見えないクラスから入力ピクセルを誤識別する。
この問題に対処するためにTagCLIP(Trusty-aware guideed CLIP)を提案する。
論文 参考訳(メタデータ) (2023-04-15T12:52:23Z) - CLIP is Also an Efficient Segmenter: A Text-Driven Approach for Weakly
Supervised Semantic Segmentation [19.208559353954833]
本稿では,コントラスト言語-画像事前学習モデル(CLIP)が,画像レベルラベルのみを用いて異なるカテゴリをローカライズする可能性について検討する。
高品質なセグメンテーションマスクをCLIPから効率的に生成するために,CLIP-ESと呼ばれる新しいWSSSフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T06:23:59Z) - ZegCLIP: Towards Adapting CLIP for Zero-shot Semantic Segmentation [35.60888272729273]
近年、CLIPは2段階のスキームを用いて画素レベルのゼロショット学習タスクに適用されている。
このような方式は有効であるが、2つの画像エンコーダが必要であり、1つは提案生成用、もう1つはCLIP用であり、複雑なパイプラインと高い計算コストをもたらす。
本稿では,CLIPのゼロショット予測能力を画像からピクセルレベルまで直接拡張する,シンプルかつ効率的なワンステージソリューションを提案する。
論文 参考訳(メタデータ) (2022-12-07T12:05:00Z) - CLIP2GAN: Towards Bridging Text with the Latent Space of GANs [128.47600914674985]
本稿では,CLIPモデルとStyleGANを利用した新しいフレームワークであるCLIP2GANを提案する。
CLIP2GANのキーとなるアイデアは、CLIPの出力機能埋め込みスペースとStyleGANの入力潜在スペースをブリッジすることです。
論文 参考訳(メタデータ) (2022-11-28T04:07:17Z) - Adapting CLIP For Phrase Localization Without Further Training [30.467802103692378]
画像とキャプションのペアで事前学習したコントラスト言語ビジョンモデルであるCLIPを活用することを提案する。
我々は高分解能空間特徴写像を生成するためにCLIPを適用した。
フレーズローカライズのための手法は、人間のアノテーションや追加の訓練を必要としない。
論文 参考訳(メタデータ) (2022-04-07T17:59:38Z) - PointCLIP: Point Cloud Understanding by CLIP [77.02399444893963]
本稿では,CLIP符号化点クラウドと3Dカテゴリテキストのアライメントを行うPointCLIPを提案する。
PointCLIPは、リソースコストとデータレシエーションの低いCLIPによる効果的な3Dポイントクラウド理解のための、有望な代替手段である。
論文 参考訳(メタデータ) (2021-12-04T19:42:40Z) - DenseCLIP: Extract Free Dense Labels from CLIP [130.3830819077699]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、オープンボキャブラリゼロショット画像認識において画期的な進歩を遂げた。
DenseCLIP+はSOTAトランスダクティブなゼロショットセマンティックセグメンテーション法を大きなマージンで上回る。
我々の発見は、DenseCLIPが高密度予測タスクの信頼性の高い新たな監視源となることを示唆している。
論文 参考訳(メタデータ) (2021-12-02T09:23:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。