論文の概要: Is CLIP the main roadblock for fine-grained open-world perception?
- arxiv url: http://arxiv.org/abs/2404.03539v1
- Date: Thu, 4 Apr 2024 15:47:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 14:22:11.749103
- Title: Is CLIP the main roadblock for fine-grained open-world perception?
- Title(参考訳): CLIPは、きめ細かいオープンワールド認識の主要な障害か?
- Authors: Lorenzo Bianchi, Fabio Carrara, Nicola Messina, Fabrizio Falchi,
- Abstract要約: 最近の研究では、オープン語彙設定における微粒化認識能力の制限が強調されている。
細粒度理解の欠如は,CLIP潜伏空間における物体特性の分離性の欠如が原因であることを示す。
実験の結果,単純なCLIP遅延空間再射は,微細な概念の分離に役立つことがわかった。
- 参考スコア(独自算出の注目度): 7.190567053576658
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern applications increasingly demand flexible computer vision models that adapt to novel concepts not encountered during training. This necessity is pivotal in emerging domains like extended reality, robotics, and autonomous driving, which require the ability to respond to open-world stimuli. A key ingredient is the ability to identify objects based on free-form textual queries defined at inference time - a task known as open-vocabulary object detection. Multimodal backbones like CLIP are the main enabling technology for current open-world perception solutions. Despite performing well on generic queries, recent studies highlighted limitations on the fine-grained recognition capabilities in open-vocabulary settings - i.e., for distinguishing subtle object features like color, shape, and material. In this paper, we perform a detailed examination of these open-vocabulary object recognition limitations to find the root cause. We evaluate the performance of CLIP, the most commonly used vision-language backbone, against a fine-grained object-matching benchmark, revealing interesting analogies between the limitations of open-vocabulary object detectors and their backbones. Experiments suggest that the lack of fine-grained understanding is caused by the poor separability of object characteristics in the CLIP latent space. Therefore, we try to understand whether fine-grained knowledge is present in CLIP embeddings but not exploited at inference time due, for example, to the unsuitability of the cosine similarity matching function, which may discard important object characteristics. Our preliminary experiments show that simple CLIP latent-space re-projections help separate fine-grained concepts, paving the way towards the development of backbones inherently able to process fine-grained details. The code for reproducing these experiments is available at https://github.com/lorebianchi98/FG-CLIP.
- Abstract(参考訳): 現代のアプリケーションでは、トレーニング中に遭遇しない新しい概念に適応する柔軟なコンピュータビジョンモデルがますます求められている。
この必要性は、拡張現実、ロボティクス、自動運転といった、オープンワールドの刺激に反応する能力を必要とする新興分野において重要なものだ。
キーとなる要素は、推論時に定義された自由形式のテキストクエリに基づいてオブジェクトを識別する能力である。
CLIPのようなマルチモーダルバックボーンは、現在のオープンワールド認識ソリューションの主要な実現技術である。
ジェネリッククエリでうまく機能したにもかかわらず、最近の研究では、オープン語彙設定における微妙な認識能力の制限、すなわち色、形状、材料などの微妙なオブジェクトの特徴を区別することを強調している。
本稿では,これらの開語彙オブジェクト認識の制約を詳細に検討し,根本原因を見いだす。
我々は,最も一般的に使用されている視覚言語バックボーンであるCLIPの性能を,粒度の細かいオブジェクトマッチングベンチマークと比較し,オープン語彙オブジェクト検出器の限界と背骨との間の興味深い類似点を明らかにした。
実験結果から,CLIP潜伏空間における物体特性の分離性の欠如に起因する細粒度理解の欠如が示唆された。
そこで我々は,CLIP埋め込みに詳細な知識が存在するが,例えば,重要な対象特性を放棄するコサイン類似性マッチング関数の不適合性に対して,推論時に利用されていないことを理解しようと試みる。
予備実験では、単純なCLIP遅延空間再射は、きめ細かい概念を分離し、本質的にきめ細かい詳細を処理できるバックボーンの開発への道を開くのに役立ちます。
これらの実験を再現するためのコードはhttps://github.com/lorebianchi98/FG-CLIPで公開されている。
関連論文リスト
- Exploring Conditional Multi-Modal Prompts for Zero-shot HOI Detection [37.57355457749918]
本稿では,条件付きマルチモーダルプロンプット(CMMP)を用いたゼロショットHOI検出のための新しいフレームワークを提案する。
従来のプロンプト学習法とは異なり,対話性を考慮した視覚特徴抽出のための学習用分離視覚と言語用プロンプトを提案する。
条件付きマルチモーダルプロンプトを用いた検知器の有効性を実験により実証し, 様々なゼロショット設定の未確認クラスにおいて, 先行技術よりも優れていた。
論文 参考訳(メタデータ) (2024-08-05T14:05:25Z) - ECOR: Explainable CLIP for Object Recognition [4.385998292803586]
本稿では,カテゴリと合理性の連立確率分布に基づくオブジェクト認識タスクにおける説明可能性の数学的定義を提案する。
本手法は,説明可能な分類における最先端性能を示す。
この進歩は、説明可能なオブジェクト認識を改善し、多様なアプリケーションに対する信頼を高める。
論文 参考訳(メタデータ) (2024-04-19T12:20:49Z) - LLMs Meet VLMs: Boost Open Vocabulary Object Detection with Fine-grained
Descriptors [58.75140338866403]
DVDetはディスクリプタ強化オープン語彙検出器である。
局所埋め込みをイメージライクな表現に変換することで、一般的なオープンな語彙検出トレーニングに直接統合することができる。
複数の大規模ベンチマークに対する大規模な実験により、DVDetは最先端技術よりも大きなマージンで一貫して優れていたことが示されている。
論文 参考訳(メタデータ) (2024-02-07T07:26:49Z) - Active Open-Vocabulary Recognition: Let Intelligent Moving Mitigate CLIP
Limitations [9.444540281544715]
オープン語彙認識のための新しいエージェントを提案する。
提案手法は,クラス固有の知識に頼ることなく,フレーム間の類似性や概念間の類似性を利用してエージェントの動きをナビゲートし,特徴を融合する。
論文 参考訳(メタデータ) (2023-11-28T19:24:07Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - A Closer Look at the Explainability of Contrastive Language-Image Pre-training [16.10032166963232]
Contrastive Language-image Pre-training (CLIP)は、様々なタスクに対して大きなメリットを示す強力なビジョン言語モデルである。
我々は,その信頼性を損なうような説明可能性の問題と,関連するタスクのキャパシティの制限を指摘した。
本稿では,CLIP surgery for reliable CAMを提案する。
論文 参考訳(メタデータ) (2023-04-12T07:16:55Z) - Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。
また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。
提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T09:51:41Z) - A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented,
Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。
私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文 参考訳(メタデータ) (2023-03-08T01:29:55Z) - Learning Common Rationale to Improve Self-Supervised Representation for
Fine-Grained Visual Recognition Problems [61.11799513362704]
我々は、インスタンスやクラスでよく見られる差別的手がかりを識別するための、追加のスクリーニングメカニズムの学習を提案する。
SSL目標から誘導されるGradCAMを単純に利用することで、共通な有理性検出器が学習可能であることを示す。
論文 参考訳(メタデータ) (2023-03-03T02:07:40Z) - CLIP-Driven Fine-grained Text-Image Person Re-identification [50.94827165464813]
TIReIDは、候補画像のプールから与えられたテキストクエリに対応する画像を取得することを目的としている。
TIReIDにおけるCLIPの強力な知識をフル活用するための,CLIP駆動のきめ細かい情報抽出フレームワーク(CFine)を提案する。
論文 参考訳(メタデータ) (2022-10-19T03:43:12Z) - Delving into the Openness of CLIP [35.371811948506796]
コントラスト言語-画像事前学習モデルの開放性を評価する。
評価の結果,CLIP様モデルは真のオープンではなく,語彙が拡大するにつれて性能が低下することがわかった。
調査の結果,オープンさの過大評価は,競合するテキスト機能間の混同に起因することが明らかとなった。
論文 参考訳(メタデータ) (2022-06-04T13:07:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。