論文の概要: Exploring Open-Vocabulary Object Recognition in Images using CLIP
- arxiv url: http://arxiv.org/abs/2603.05962v1
- Date: Fri, 06 Mar 2026 06:53:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.195659
- Title: Exploring Open-Vocabulary Object Recognition in Images using CLIP
- Title(参考訳): CLIPを用いた画像内自由語彙オブジェクト認識の探索
- Authors: Wei Yu Chen, Ying Dai,
- Abstract要約: 本稿では,2段階戦略の合理化に基づくオープン語彙オブジェクト認識(OVOR)フレームワークを提案する。
このフレームワークは、複雑な再トレーニングと労働集約的なアノテーションを必要としない。
COCO、Pascal VOC、ADE20Kの実験では、SVDを使わずにCLIPベースのエンコーディングが平均APを達成している。
- 参考スコア(独自算出の注目度): 12.96248884328754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To address the limitations of existing open-vocabulary object recognition methods, specifically high system complexity, substantial training costs, and limited generalization, this paper proposes a novel Open-Vocabulary Object Recognition (OVOR) framework based on a streamlined two-stage strategy: object segmentation followed by recognition. The framework eliminates the need for complex retraining and labor-intensive annotation. After cropping object regions, we generate object-level image embeddings alongside category-level text embeddings using CLIP, which facilitates arbitrary vocabularies. To reduce reliance on CLIP and enhance encoding flexibility, we further introduce a CNN/MLP-based method that extracts convolutional neural network (CNN) feature maps and utilizes a multilayer perceptron (MLP) to align visual features with text embeddings. These embeddings are concatenated and processed via Singular Value Decomposition (SVD) to construct a shared representation space. Finally, recognition is performed through embedding similarity matching. Experiments on COCO, Pascal VOC, and ADE20K demonstrate that training-free, CLIP-based encoding without SVD achieves the highest average AP, outperforming current state-of-the-art methods. Simultaneously, the results highlight the potential of CNN/MLP-based image encoding for OVOR.
- Abstract(参考訳): 本稿では,既存のオープン語彙オブジェクト認識手法の限界,特に高システム複雑性,実質的なトレーニングコスト,限定的な一般化に対処するために,オブジェクトセグメンテーションと認識の2段階戦略に基づく新しいオープン語彙オブジェクト認識(OVOR)フレームワークを提案する。
このフレームワークは、複雑な再トレーニングと労働集約的なアノテーションを必要としない。
対象領域をトリミングした後、任意の語彙を容易にするCLIPを用いてカテゴリレベルのテキスト埋め込みと共にオブジェクトレベルの画像埋め込みを生成する。
さらに,CLIPへの依存を低減し,符号化の柔軟性を高めるために,畳み込みニューラルネットワーク(CNN)特徴マップを抽出し,多層パーセプトロン(MLP)を用いて視覚的特徴をテキスト埋め込みと整合させるCNN/MLPベースの手法を導入する。
これらの埋め込みは結合され、共有表現空間を構築するためにSingular Value Decomposition (SVD)を介して処理される。
最後に、類似性マッチングを埋め込んで認識を行う。
COCO、Pascal VOC、ADE20Kの実験では、SVDのないCLIPベースのエンコーディングは、最先端の手法よりも高い平均APを実現している。
同時に、OVORのためのCNN/MLPベースの画像符号化の可能性を強調した。
関連論文リスト
- A Training-Free Framework for Open-Vocabulary Image Segmentation and Recognition with EfficientNet and CLIP [12.96248884328754]
本稿では,オープンボキャブラリ画像セグメンテーションとオブジェクト認識のための新しい学習自由フレームワークを提案する。
教師なしセグメンテーションには畳み込みニューラルネットワークであるEfficientNetB0を使用し、オープン語彙オブジェクト認識には視覚言語モデルであるCLIPを使用している。
ハンガリーのmIoU、精度、リコール、F1スコアで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-10-22T07:54:18Z) - Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception [71.26728044621458]
DeCLIPは、CLIPを強化する新しいフレームワークで、自己認識モジュールを分離して、それぞれコンテンツ’と“コンテキスト’の機能を取得する。
2D検出とセグメンテーション、3Dインスタンスのセグメンテーション、ビデオインスタンスのセグメンテーション、6Dオブジェクトのポーズ推定など、幅広いタスクにわたる最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2025-08-15T06:43:51Z) - DiffCLIP: Few-shot Language-driven Multimodal Classifier [19.145645804307566]
DiffCLIPはContrastive Language-Image Pretrainingを拡張する新しいフレームワークである。
高次元マルチモーダルリモートセンシング画像の正確な分類のための包括的言語駆動意味情報を提供する。
DiffCLIPはCLIPと比較して3つのリモートセンシングデータセットで10.65%の全体的な精度向上を実現している。
論文 参考訳(メタデータ) (2024-12-10T02:21:39Z) - HIP: Hierarchical Point Modeling and Pre-training for Visual Information Extraction [24.46493675079128]
OCRに依存した手法はオフラインのOCRエンジンに依存し、OCRに依存しない手法は解釈性に欠ける出力や幻覚的内容を含む出力を生成する。
我々は, 階層的視点をモデルとしたHIPを提案し, エンドツーエンドのVIEタスクの階層的性質をよりよく適合させる。
具体的には、このような階層的な点は柔軟に符号化され、その後所望のテキスト書き起こし、地域の中心、エンティティのカテゴリにデコードされる。
論文 参考訳(メタデータ) (2024-11-02T05:00:13Z) - Contrastive Localized Language-Image Pre-Training [60.4967533101887]
コントラスト言語-画像事前学習(CLIP)は、画像/テキスト表現を生成するために視覚エンコーダを訓練するための著名な方法である。
本稿では,CLIPとリージョンテキストのコントラッシブな損失とモジュールを補完することにより,CLOC(Contrastive Localized Language- Image Pre-Trening)を提案する。
CLOCは画像領域認識および検索タスクのための高品質な地域埋め込みを可能にする。
論文 参考訳(メタデータ) (2024-10-03T17:56:09Z) - Towards Open-Vocabulary Semantic Segmentation Without Semantic Labels [53.8817160001038]
画素レベルの理解にCLIP画像エンコーダを適用する新しい手法であるPixelCLIPを提案する。
セマンティックラベルを使わずにマスクを活用するという課題に対処するため,オンラインクラスタリングアルゴリズムを考案した。
PixelCLIPはCLIPよりも大幅にパフォーマンスが向上し、キャプション管理手法に比べて競合性が向上した。
論文 参考訳(メタデータ) (2024-09-30T01:13:03Z) - Symmetrical Linguistic Feature Distillation with CLIP for Scene Text
Recognition [77.93678598476149]
CLIP-OCR(Symmetrical Linguistic Feature Distillation framework)を新たに構築する。
CLIP画像エンコーダを逆CLIPテキストエンコーダでカスケードすることにより、画像からテキストまでの特徴フローで対称構造を構築する。
大規模な実験では、CLIP-OCRが6つのSTRベンチマークで平均精度93.8%で有効であることが示されている。
論文 参考訳(メタデータ) (2023-10-08T04:00:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。