論文の概要: CLIP for Lightweight Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2310.07394v1
- Date: Wed, 11 Oct 2023 11:26:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 23:00:54.534109
- Title: CLIP for Lightweight Semantic Segmentation
- Title(参考訳): 軽量セマンティックセグメンテーションのためのCLIP
- Authors: Ke Jin, Wankou Yang
- Abstract要約: 本稿では,言語誘導パラダイムを軽量ネットワークに適用する機能融合モジュールを提案する。
このモジュールはモデルに依存しないため、言語誘導の軽量セマンティックセマンティックセグメンテーションを実践できるだけでなく、事前訓練された言語事前知識を完全に活用することができる。
- 参考スコア(独自算出の注目度): 14.039603036741278
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The large-scale pretrained model CLIP, trained on 400 million image-text
pairs, offers a promising paradigm for tackling vision tasks, albeit at the
image level. Later works, such as DenseCLIP and LSeg, extend this paradigm to
dense prediction, including semantic segmentation, and have achieved excellent
results. However, the above methods either rely on CLIP-pretrained visual
backbones or use none-pretrained but heavy backbones such as Swin, while
falling ineffective when applied to lightweight backbones. The reason for this
is that the lightweitht networks, feature extraction ability of which are
relatively limited, meet difficulty embedding the image feature aligned with
text embeddings perfectly. In this work, we present a new feature fusion module
which tackles this problem and enables language-guided paradigm to be applied
to lightweight networks. Specifically, the module is a parallel design of CNN
and transformer with a two-way bridge in between, where CNN extracts spatial
information and visual context of the feature map from the image encoder, and
the transformer propagates text embeddings from the text encoder forward. The
core of the module is the bidirectional fusion of visual and text feature
across the bridge which prompts their proximity and alignment in embedding
space. The module is model-agnostic, which can not only make language-guided
lightweight semantic segmentation practical, but also fully exploit the
pretrained knowledge of language priors and achieve better performance than
previous SOTA work, such as DenseCLIP, whatever the vision backbone is.
Extensive experiments have been conducted to demonstrate the superiority of our
method.
- Abstract(参考訳): 4億のイメージテキストペアをトレーニングした大規模な事前トレーニングモデルCLIPは、イメージレベルではありますが、ビジョンタスクに取り組む上で有望なパラダイムを提供します。
DenseCLIPやLSegといった後の研究は、このパラダイムを意味的セグメンテーションを含む密集した予測にまで拡張し、優れた結果を得た。
しかし、上記の手法は、CLIPに制限された視覚バックボーンに依存するか、Swinのような非制限の重いバックボーンを使用するか、軽量バックボーンに適用すると効果が低下する。
この理由は、比較的限られた特徴抽出能力を持つ軽量ネットワークが、テキスト埋め込みと整合した画像を埋め込むのが困難であるからである。
本研究では,この問題に対処し,軽量ネットワークに適用可能な言語誘導パラダイムを実現する機能融合モジュールを提案する。
具体的には、cnnは画像エンコーダから特徴マップの空間情報と視覚的コンテキストを抽出し、トランスフォーマはテキストエンコーダからテキスト埋め込みを前方に伝播する双方向ブリッジを備えたcnnとtransformerの並列設計である。
モジュールの中核は、視覚とテキストが橋を横切る双方向の融合であり、それらは埋め込み空間における近接とアライメントを促進する。
モジュールはモデルに依存しないため、言語誘導の軽量セマンティックセマンティックセグメンテーションを実践できるだけでなく、事前訓練された言語事前知識をフル活用し、ビジョンバックボーンが何であれ、DenseCLIPのような以前のSOTA作業よりも優れたパフォーマンスを達成することができる。
本手法の優位性を示すため, 大規模な実験を行った。
関連論文リスト
- Selective Vision-Language Subspace Projection for Few-shot CLIP [55.361337202198925]
SSP (Selective Vision-Language Subspace Projection) という手法を導入する。
SSPはローカルな画像特徴を取り入れ、それらをブリッジとして利用し、画像とテキストのペア間のアライメントを強化する。
提案手法では,学習不要な行列計算しか必要とせず,高度なCLIPベースの数ショット学習フレームワークにシームレスに統合できる。
論文 参考訳(メタデータ) (2024-07-24T03:45:35Z) - Exploring Simple Open-Vocabulary Semantic Segmentation [7.245983878396646]
オープン語彙セマンティックセグメンテーションモデルは、任意のオープン語彙テキストの集合から画像中の各ピクセルにセマンティックラベルを正確に割り当てることを目的としている。
本稿では,これらの要素に依存することなく驚くほど高い性能を実現する新モデルであるS-Segを紹介する。
論文 参考訳(メタデータ) (2024-01-22T18:59:29Z) - LightCLIP: Learning Multi-Level Interaction for Lightweight
Vision-Language Models [45.672539931681065]
軽量CLIPモデルのトレーニングのためのマルチレベルインタラクションパラダイムを提案する。
マスク付きテキスト埋め込みに非マスク画像の埋め込みを注入する補助融合モジュールを提案する。
論文 参考訳(メタデータ) (2023-12-01T15:54:55Z) - Bootstrapping Vision-Language Learning with Decoupled Language
Pre-training [46.570154746311935]
本稿では,資源集約型視覚言語事前学習のための凍結型大規模言語モデル (LLM) の最適化を目的とした新しい手法を提案する。
われわれのアプローチは、言語コンポーネントに集中して、視覚的特徴と整合する最適なプロンプトを具体的に特定することによって、多様化している。
我々のフレームワークは、ビデオ学習タスクにおけるその成功例によって検証されるように、アーキテクチャ設計の観点からは、モダリティ非依存かつ柔軟である。
論文 参考訳(メタデータ) (2023-07-13T21:08:15Z) - CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model [55.321010757641524]
CLIP4STRは,CLIPのイメージエンコーダとテキストエンコーダ上に構築された,シンプルで効果的なSTRメソッドである。
モデルサイズ、事前トレーニングデータ、トレーニングデータの観点からCLIP4STRをスケールし、11のSTRベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-23T12:51:20Z) - STAIR: Learning Sparse Text and Image Representation in Grounded Tokens [84.14528645941128]
疎結合なセマンティック表現を構築することは、密度の高いプレゼンテーションと同程度、あるいはそれ以上に強力であることを示す。
CLIPモデルを拡張してスパーステキストと画像表現(STAIR)を構築し、画像とテキストをスパーストークン空間にマッピングする。
CLIPモデルでは、+4.9%$と+4.3%$絶対リコール@1の改善で大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2023-01-30T17:21:30Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。