Fugu-MT 論文翻訳(概要): CLIP-DIY: CLIP Dense Inference Yields Open-Vocabulary Semantic Segmentation For-Free

論文の概要: CLIP-DIY: CLIP Dense Inference Yields Open-Vocabulary Semantic Segmentation For-Free

arxiv url: http://arxiv.org/abs/2309.14289v2
Date: Tue, 28 Nov 2023 13:28:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-30 14:37:55.819433
Title: CLIP-DIY: CLIP Dense Inference Yields Open-Vocabulary Semantic Segmentation For-Free
Title（参考訳）: CLIP-DIY: CLIP Dense Inferenceがオープンソースでセマンティックセマンティックセグメンテーションを無償で提供
Authors: Monika Wysocza\'nska, Micha\"el Ramamonjisoa, Tomasz Trzci\'nski, Oriane Sim\'eoni
Abstract要約: CLIP-DIYと呼ばれるオープン語彙セマンティックセマンティックセマンティクス手法を提案する。異なるサイズのパッチに対してCLIP分類機能を活用し、決定を単一のマップに集約する。 PASCAL VOCでは,最先端のゼロショットセマンティックセマンティックセマンティクスが得られ,COCOのベストメソッドと同等に動作する。
参考スコア（独自算出の注目度）: 12.15899043709721
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The emergence of CLIP has opened the way for open-world image perception. The zero-shot classification capabilities of the model are impressive but are harder to use for dense tasks such as image segmentation. Several methods have proposed different modifications and learning schemes to produce dense output. Instead, we propose in this work an open-vocabulary semantic segmentation method, dubbed CLIP-DIY, which does not require any additional training or annotations, but instead leverages existing unsupervised object localization approaches. In particular, CLIP-DIY is a multi-scale approach that directly exploits CLIP classification abilities on patches of different sizes and aggregates the decision in a single map. We further guide the segmentation using foreground/background scores obtained using unsupervised object localization methods. With our method, we obtain state-of-the-art zero-shot semantic segmentation results on PASCAL VOC and perform on par with the best methods on COCO. The code is available at http://github.com/wysoczanska/clip-diy
Abstract（参考訳）: CLIPの出現は、オープンワールドイメージ認識の道を開いた。モデルのゼロショット分類機能は印象的だが、画像セグメンテーションのような密集したタスクには使いづらい。いくつかの方法で異なる修正と学習スキームを提案し、密集したアウトプットを作り出す。代わりに、我々はCLIP-DIYと呼ばれるオープン語彙セマンティックセマンティックセマンティクス手法を提案し、これは追加のトレーニングやアノテーションを必要としないが、代わりに既存の教師なしオブジェクトローカライゼーションアプローチを活用する。特にCLIP-DIYは、CLIP分類能力を異なるサイズのパッチに直接活用し、決定を単一のマップに集約するマルチスケールアプローチである。さらに,教師なし物体定位法を用いて得られたフォアグラウンド/バックグラウンドスコアを用いたセグメンテーションをガイドする。提案手法により,PASCAL VOC上での最先端のゼロショットセマンティックセマンティックセマンティックセマンティクス結果を取得し,COCO上でのベストメソッドと同等に実行する。コードはhttp://github.com/wysoczanska/clip-diyで入手できる。

関連論文リスト

Language-Guided Open-World Anomaly Segmentation [81.13615952207685]
ClipomalyはCLIPをベースとした世界初のオープンワールドおよび異常セグメンテーション手法である。ゼロショットアプローチでは、異常固有のトレーニングデータを必要とせず、未知のオブジェクトをセグメント化するためにCLIPの共有画像テキスト埋め込みスペースを活用する。本モデルでは,推論時に語彙を動的に拡張し,クラス定義以外の異常の堅牢な検出と命名を可能にする。
論文参考訳（メタデータ） (2025-12-01T09:08:59Z)
Laser: Efficient Language-Guided Segmentation in Neural Radiance Fields [49.66011190843893]
本稿では,CLIP特徴蒸留を利用して,言語指導による効率的な3次元セグメンテーションを実現する手法を提案する。これを実現するために,我々は,高密度CLIP特徴蒸留プロセスにおいて,アダプタモジュールを導入し,ノイズ問題を緩和する。本手法は, 訓練速度と性能の両面で, 現在の最先端技術を上回っている。
論文参考訳（メタデータ） (2025-01-31T12:19:14Z)
Towards Open-Vocabulary Semantic Segmentation Without Semantic Labels [53.8817160001038]
画素レベルの理解にCLIP画像エンコーダを適用する新しい手法であるPixelCLIPを提案する。セマンティックラベルを使わずにマスクを活用するという課題に対処するため,オンラインクラスタリングアルゴリズムを考案した。 PixelCLIPはCLIPよりも大幅にパフォーマンスが向上し、キャプション管理手法に比べて競合性が向上した。
論文参考訳（メタデータ） (2024-09-30T01:13:03Z)
Frozen CLIP: A Strong Backbone for Weakly Supervised Semantic Segmentation [90.35249276717038]
弱教師付きセマンティックセグメンテーションのためのCLIPベースのシングルステージパイプラインであるWeCLIPを提案する。具体的には、凍結したCLIPモデルを意味的特徴抽出のバックボーンとして適用する。新しいデコーダは、最終予測のために抽出された意味的特徴を解釈するように設計されている。
論文参考訳（メタデータ） (2024-06-17T03:49:47Z)
CLIP-DINOiser: Teaching CLIP a few DINO tricks for open-vocabulary semantic segmentation [31.264574799748903]
アノテーションを必要としないオープン語彙セマンティックセマンティックセマンティクス法を提案する。使用済みの自己教師機能プロパティは,CLIP機能から直接学習可能であることを示す。我々のCLIP-DINOiser法は,CLIPの1つの前方通過と2つの軽い畳み込み層のみを必要とする。
論文参考訳（メタデータ） (2023-12-19T17:40:27Z)
Side Adapter Network for Open-Vocabulary Semantic Segmentation [69.18441687386733]
本稿では,Side Adapter Network (SAN) という,事前学習された視覚言語モデルを用いたオープン語彙セマンティックセマンティックセマンティックセマンティクスのための新しいフレームワークを提案する。サイドネットワークは凍結したCLIPモデルにアタッチされ、ひとつはマスクの提案を予測し、もうひとつは注意バイアスを予測する。トレーニング可能なパラメータは最大で18倍,推論速度は19倍に向上した。
論文参考訳（メタデータ） (2023-02-23T18:58:28Z)
SegCLIP: Patch Aggregation with Learnable Centers for Open-Vocabulary Semantic Segmentation [26.079055078561986]
オープン語彙セグメンテーションのためのCLIPベースのSegCLIPモデルを提案する。主なアイデアは、テキストイメージペアのトレーニングを通じて、学習可能な中心をセマンティック領域に集めることである。実験結果から,本モデルでは高いセグメンテーション精度が得られた。
論文参考訳（メタデータ） (2022-11-27T12:38:52Z)
FreeSOLO: Learning to Segment Objects without Annotations [191.82134817449528]
我々は,単純なインスタンスセグメンテーションメソッドSOLO上に構築された自己教師型インスタンスセグメンテーションフレームワークであるFreeSOLOを紹介する。また,本手法では,複雑なシーンからオブジェクトを教師なしで検出する,新たなローカライズ対応事前学習フレームワークを提案する。
論文参考訳（メタデータ） (2022-02-24T16:31:44Z)
DenseCLIP: Extract Free Dense Labels from CLIP [130.3830819077699]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、オープンボキャブラリゼロショット画像認識において画期的な進歩を遂げた。 DenseCLIP+はSOTAトランスダクティブなゼロショットセマンティックセグメンテーション法を大きなマージンで上回る。我々の発見は、DenseCLIPが高密度予測タスクの信頼性の高い新たな監視源となることを示唆している。
論文参考訳（メタデータ） (2021-12-02T09:23:01Z)
Sparse Object-level Supervision for Instance Segmentation with Pixel Embeddings [4.038011160363972]
ほとんどの最先端のインスタンスセグメンテーションメソッドは、密接な注釈付き画像でトレーニングする必要があります。非空間埋め込みに基づく提案フリーセグメンテーション手法を提案する。本研究では, 異なる顕微鏡モードにおける2次元および3次元分割問題の解法について検討した。
論文参考訳（メタデータ） (2021-03-26T16:36:56Z)
Exploring Cross-Image Pixel Contrast for Semantic Segmentation [130.22216825377618]
完全教師付きセッティングにおけるセマンティックセグメンテーションのための画素単位のコントラストフレームワークを提案する。中心となる考え方は、同じセマンティッククラスに属するピクセルの埋め込みを、異なるクラスの埋め込みよりもよく似ているように強制することである。テスト中に余分なオーバーヘッドを伴わずに既存のセグメンテーションフレームワークに懸命に組み込むことができる。
論文参考訳（メタデータ） (2021-01-28T11:35:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。