論文の概要: A Training-Free Framework for Open-Vocabulary Image Segmentation and Recognition with EfficientNet and CLIP
- arxiv url: http://arxiv.org/abs/2510.19333v2
- Date: Mon, 27 Oct 2025 02:16:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 13:14:10.608027
- Title: A Training-Free Framework for Open-Vocabulary Image Segmentation and Recognition with EfficientNet and CLIP
- Title(参考訳): 能率ネットとCLIPを用いたオープン語彙画像分割と認識のための学習自由フレームワーク
- Authors: Ying Dai, Wei Yu Chen,
- Abstract要約: 本稿では,オープンボキャブラリ画像セグメンテーションとオブジェクト認識のための新しい学習自由フレームワークを提案する。
教師なしセグメンテーションには畳み込みニューラルネットワークであるEfficientNetB0を使用し、オープン語彙オブジェクト認識には視覚言語モデルであるCLIPを使用している。
ハンガリーのmIoU、精度、リコール、F1スコアで最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 12.96248884328754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a novel training-free framework for open-vocabulary image segmentation and object recognition (OVSR), which leverages EfficientNetB0, a convolutional neural network, for unsupervised segmentation and CLIP, a vision-language model, for open-vocabulary object recognition. The proposed framework adopts a two stage pipeline: unsupervised image segmentation followed by segment-level recognition via vision-language alignment. In the first stage, pixel-wise features extracted from EfficientNetB0 are decomposed using singular value decomposition to obtain latent representations, which are then clustered using hierarchical clustering to segment semantically meaningful regions. The number of clusters is adaptively determined by the distribution of singular values. In the second stage, the segmented regions are localized and encoded into image embeddings using the Vision Transformer backbone of CLIP. Text embeddings are precomputed using CLIP's text encoder from category-specific prompts, including a generic something else prompt to support open set recognition. The image and text embeddings are concatenated and projected into a shared latent feature space via SVD to enhance cross-modal alignment. Recognition is performed by computing the softmax over the similarities between the projected image and text embeddings. The proposed method is evaluated on standard benchmarks, including COCO, ADE20K, and PASCAL VOC, achieving state-of-the-art performance in terms of Hungarian mIoU, precision, recall, and F1-score. These results demonstrate the effectiveness, flexibility, and generalizability of the proposed framework.
- Abstract(参考訳): 本稿では,非教師付きセグメンテーションのための畳み込みニューラルネットワークであるEfficientNetB0と,オープンボキャブラリオブジェクト認識のための視覚言語モデルCLIPを活用する,オープンボキャブラリ画像セグメンテーションとオブジェクト認識のための新しいトレーニングフリーフレームワークを提案する。
提案するフレームワークでは,教師なし画像分割と視覚言語アライメントによるセグメントレベルの認識という,2段階のパイプラインが採用されている。
第1段階では、EfficientNetB0から抽出された画素単位の特徴を特異値分解を用いて分解して潜在表現を求め、階層的クラスタリングを用いてクラスタ化して意味のある領域をセグメンテーションする。
クラスタの数は特異値の分布によって適応的に決定される。
第2段階では、セグメント化された領域は、CLIPのVision Transformerバックボーンを使用して、画像埋め込みにローカライズされ、エンコードされる。
テキスト埋め込みはカテゴリ固有のプロンプトからCLIPのテキストエンコーダを使用してプリコンパイルされる。
画像とテキストの埋め込みは連結され、SVDを介して共有潜在機能空間に投影され、クロスモーダルアライメントが向上する。
認識は、投影された画像とテキスト埋め込みの類似性に対してソフトマックスを計算することによって行われる。
提案手法は,COCO,ADE20K,PASCAL VOCなどの標準ベンチマークで評価され,ハンガリーのmIoU,精度,リコール,F1スコアといった最先端性能を実現している。
これらの結果は,提案フレームワークの有効性,柔軟性,一般化性を示すものである。
関連論文リスト
- Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception [71.26728044621458]
DeCLIPは、CLIPを強化する新しいフレームワークで、自己認識モジュールを分離して、それぞれコンテンツ’と“コンテキスト’の機能を取得する。
2D検出とセグメンテーション、3Dインスタンスのセグメンテーション、ビデオインスタンスのセグメンテーション、6Dオブジェクトのポーズ推定など、幅広いタスクにわたる最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2025-08-15T06:43:51Z) - FGAseg: Fine-Grained Pixel-Text Alignment for Open-Vocabulary Semantic Segmentation [63.31007867379312]
Open-vocabulary segmentationは、テキストベースの記述に基づいて特定の領域やオブジェクトを識別し、分割することを目的としている。
一般的な解決策は、CLIPのような強力な視覚言語モデル(VLM)を活用して、視覚とテキスト情報のギャップを埋めることである。
対照的に、セグメンテーションタスクは細かいピクセルレベルのアライメントと詳細なカテゴリ境界情報を必要とする。
細粒度画素テキストアライメントとカテゴリ境界補間のためのモデルFGAsegを提案する。
論文 参考訳(メタデータ) (2025-01-01T15:47:04Z) - Effective SAM Combination for Open-Vocabulary Semantic Segmentation [24.126307031048203]
Open-vocabulary semantic segmentationは、無制限のクラスにわたる画像にピクセルレベルのラベルを割り当てることを目的としている。
ESC-Netは、SAMデコーダブロックを利用してクラスに依存しないセグメンテーションを行う新しい1段オープン語彙セグメンテーションモデルである。
ESC-NetはADE20K、PASCAL-VOC、PASCAL-Contextなどの標準ベンチマークで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-11-22T04:36:12Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。