論文の概要: DenseVLM: A Retrieval and Decoupled Alignment Framework for Open-Vocabulary Dense Prediction
- arxiv url: http://arxiv.org/abs/2412.06244v1
- Date: Mon, 09 Dec 2024 06:34:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:54:45.033417
- Title: DenseVLM: A Retrieval and Decoupled Alignment Framework for Open-Vocabulary Dense Prediction
- Title(参考訳): DenseVLM:オープン語彙Dense予測のための検索および分離アライメントフレームワーク
- Authors: Yunheng Li, Yuxuan Li, Quansheng Zeng, Wenhai Wang, Qibin Hou, Ming-Ming Cheng,
- Abstract要約: DenseVLMは、非バイアスの領域言語アライメントを、強力な事前学習型VLM表現から学習するためのフレームワークである。
我々は、DenseVLMをオープン語彙オブジェクト検出と画像分割タスクにシームレスに統合できることを示し、顕著な性能改善を実現した。
- 参考スコア(独自算出の注目度): 80.67150791183126
- License:
- Abstract: Pre-trained vision-language models (VLMs), such as CLIP, have demonstrated impressive zero-shot recognition capability, but still underperform in dense prediction tasks. Self-distillation recently is emerging as a promising approach for fine-tuning VLMs to better adapt to local regions without requiring extensive annotations. However, previous state-of-the-art approaches often suffer from significant `foreground bias', where models tend to wrongly identify background regions as foreground objects. To alleviate this issue, we propose DenseVLM, a framework designed to learn unbiased region-language alignment from powerful pre-trained VLM representations. By leveraging the pre-trained VLM to retrieve categories for unlabeled regions, DenseVLM effectively decouples the interference between foreground and background region features, ensuring that each region is accurately aligned with its corresponding category. We show that DenseVLM can be seamlessly integrated into open-vocabulary object detection and image segmentation tasks, leading to notable performance improvements. Furthermore, it exhibits promising zero-shot scalability when training on more extensive and diverse datasets.
- Abstract(参考訳): CLIPのような事前訓練された視覚言語モデル(VLM)は、印象的なゼロショット認識能力を示しているが、それでも高密度予測タスクでは性能が劣っている。
最近の自己蒸留は、広範囲なアノテーションを必要とせず、ローカルな領域に適応するための微調整VLMのための有望なアプローチとして現れている。
しかし、従来の最先端アプローチでは、モデルが背景領域を前景オブジェクトとして誤って識別する傾向にある、重大な「地上バイアス」に悩まされることが多い。
この問題を軽減するために、我々は、強力な事前学習されたVLM表現から非バイアスの領域言語アライメントを学習するためのフレームワークであるDenseVLMを提案する。
事前訓練されたVLMを利用して未ラベル領域のカテゴリを検索することにより、DenseVLMは、前景と背景領域の特徴間の干渉を効果的に分離し、各領域が対応するカテゴリに正確に整合していることを保証する。
我々は、DenseVLMをオープン語彙オブジェクト検出と画像分割タスクにシームレスに統合できることを示し、顕著な性能改善を実現した。
さらに、より広範囲で多様なデータセットのトレーニングでは、ゼロショットのスケーラビリティが期待できる。
関連論文リスト
- Locality Alignment Improves Vision-Language Models [55.275235524659905]
近年では視覚言語モデル (VLM) が普及しているが、その多くが基本的な空間推論の誤りに悩まされている。
局所性アライメント(Locality alignment)と呼ばれる,視覚障害者のための新しい学習段階を提案する。
局所性に整合したバックボーンは、様々なベンチマークでパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-10-14T21:01:01Z) - Towards Seamless Adaptation of Pre-trained Models for Visual Place Recognition [72.35438297011176]
視覚的位置認識のための事前学習モデル(VPR)のシームレスな適応を実現する新しい手法を提案する。
具体的には、地域を識別するための有意義なランドマークに焦点を当てたグローバルな特徴とローカルな特徴の両方を得るために、ハイブリッド適応法を設計する。
実験結果から,本手法はトレーニングデータやトレーニング時間が少なく,最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-02-22T12:55:01Z) - Optimization Efficient Open-World Visual Region Recognition [55.76437190434433]
RegionSpotは、ローカライゼーション基盤モデルから位置認識ローカライゼーション知識と、ViLモデルからのセマンティック情報を統合する。
オープンワールドオブジェクト認識の実験では、私たちのRereaSpotは、以前の代替よりも大きなパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-11-02T16:31:49Z) - Spatial Likelihood Voting with Self-Knowledge Distillation for Weakly
Supervised Object Detection [54.24966006457756]
自己知識蒸留ネットワーク(SLV-SDネット)を用いたWSODフレームワークを提案する。
SLV-SD Netは、境界ボックスアノテーションなしで領域提案のローカライゼーションを収束させる。
PASCAL VOC 2007/2012およびMS-COCOデータセットの実験は、SLV-SD Netの優れた性能を示している。
論文 参考訳(メタデータ) (2022-04-14T11:56:19Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Align Yourself: Self-supervised Pre-training for Fine-grained
Recognition via Saliency Alignment [34.38172454910976]
Cross-view Saliency Alignment (CVSA)は、画像のサリエンシ領域を新しいビュー生成としてトリミングし、交換し、その後、クロスビューアライメント損失を通じて、前景オブジェクトのローカライズを誘導する、対照的な学習フレームワークである。
4つの一般的な詳細な分類ベンチマークの実験により、CVSAは学習された表現を著しく改善することが示された。
論文 参考訳(メタデータ) (2021-06-30T02:56:26Z) - SLV: Spatial Likelihood Voting for Weakly Supervised Object Detection [31.421794727209935]
提案手法を収束させるため,空間的確率投票(SLV)モジュールを提案する。
与えられた画像内のすべての領域の提案は、訓練中の毎回有権者の役割を担い、空間次元における各カテゴリの可能性が投票される。
大きな可能性値の領域にアライメントを拡大した後、投票結果は境界ボックスとして正規化され、最終分類とローカライゼーションに使用される。
論文 参考訳(メタデータ) (2020-06-23T10:24:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。