論文の概要: Unbiased Region-Language Alignment for Open-Vocabulary Dense Prediction
- arxiv url: http://arxiv.org/abs/2412.06244v2
- Date: Mon, 10 Mar 2025 07:19:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:40:48.227232
- Title: Unbiased Region-Language Alignment for Open-Vocabulary Dense Prediction
- Title(参考訳): 開語彙密度予測のための非バイアス領域言語アライメント
- Authors: Yunheng Li, Yuxuan Li, Quansheng Zeng, Wenhai Wang, Qibin Hou, Ming-Ming Cheng,
- Abstract要約: 事前訓練された視覚言語モデル(VLM)は、印象的なゼロショット認識能力を示したが、それでも高密度予測タスクでは性能が劣っている。
提案するDenseVLMは,非バイアスの領域言語アライメントを,強力な事前学習型VLM表現から学習するためのフレームワークである。
DenseVLMは、オープン語彙オブジェクト検出および画像分割法において、元のVLMを直接置き換えることができることを示す。
- 参考スコア(独自算出の注目度): 80.67150791183126
- License:
- Abstract: Pre-trained vision-language models (VLMs), such as CLIP, have demonstrated impressive zero-shot recognition capability, but still underperform in dense prediction tasks. Self-distillation recently is emerging as a promising approach for fine-tuning VLMs to better adapt to local regions without requiring extensive annotations. However, previous state-of-the-art approaches often suffer from significant `foreground bias', where models tend to wrongly identify background regions as foreground objects. To alleviate this issue, we propose DenseVLM, a framework designed to learn unbiased region-language alignment from powerful pre-trained VLM representations. To alleviate this issue, we propose DenseVLM, a framework designed to learn unbiased region-language alignment from powerful pre-trained VLM representations. DenseVLM leverages the pre-trained VLM to retrieve categories for unlabeled regions and then decouples the interference between foreground and background features. We show that DenseVLM can directly replace the original VLM in open-vocabulary object detection and image segmentation methods, leading to notable performance improvements. Furthermore, it exhibits promising zero-shot scalability when training on more extensive and diverse datasets. Our code is available at https://github.com/HVision-NKU/DenseVLM.
- Abstract(参考訳): CLIPのような事前訓練された視覚言語モデル(VLM)は、印象的なゼロショット認識能力を示しているが、それでも高密度予測タスクでは性能が劣っている。
最近の自己蒸留は、広範囲なアノテーションを必要とせず、ローカルな領域に適応するための微調整VLMのための有望なアプローチとして現れている。
しかし、従来の最先端アプローチでは、モデルが背景領域を前景オブジェクトとして誤って識別する傾向にある、重大な「地上バイアス」に悩まされることが多い。
この問題を軽減するために、我々は、強力な事前学習されたVLM表現から非バイアスの領域言語アライメントを学習するためのフレームワークであるDenseVLMを提案する。
この問題を軽減するために、我々は、強力な事前学習されたVLM表現から非バイアスの領域言語アライメントを学習するためのフレームワークであるDenseVLMを提案する。
DenseVLMはトレーニング済みのVLMを利用してラベルのない領域のカテゴリを検索し、前景と背景の特徴の干渉を分離する。
DenseVLMは、オープン語彙オブジェクト検出および画像分割法において、元のVLMを直接置き換えることが可能であることを示し、顕著な性能改善を実現している。
さらに、より広範囲で多様なデータセットのトレーニングでは、ゼロショットのスケーラビリティが期待できる。
私たちのコードはhttps://github.com/HVision-NKU/DenseVLM.comで公開されています。
関連論文リスト
- Locality Alignment Improves Vision-Language Models [55.275235524659905]
近年では視覚言語モデル (VLM) が普及しているが、その多くが基本的な空間推論の誤りに悩まされている。
局所性アライメント(Locality alignment)と呼ばれる,視覚障害者のための新しい学習段階を提案する。
局所性に整合したバックボーンは、様々なベンチマークでパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-10-14T21:01:01Z) - Towards Seamless Adaptation of Pre-trained Models for Visual Place Recognition [72.35438297011176]
視覚的位置認識のための事前学習モデル(VPR)のシームレスな適応を実現する新しい手法を提案する。
具体的には、地域を識別するための有意義なランドマークに焦点を当てたグローバルな特徴とローカルな特徴の両方を得るために、ハイブリッド適応法を設計する。
実験結果から,本手法はトレーニングデータやトレーニング時間が少なく,最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-02-22T12:55:01Z) - Optimization Efficient Open-World Visual Region Recognition [55.76437190434433]
RegionSpotは、ローカライゼーション基盤モデルから位置認識ローカライゼーション知識と、ViLモデルからのセマンティック情報を統合する。
オープンワールドオブジェクト認識の実験では、私たちのRereaSpotは、以前の代替よりも大きなパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-11-02T16:31:49Z) - Spatial Likelihood Voting with Self-Knowledge Distillation for Weakly
Supervised Object Detection [54.24966006457756]
自己知識蒸留ネットワーク(SLV-SDネット)を用いたWSODフレームワークを提案する。
SLV-SD Netは、境界ボックスアノテーションなしで領域提案のローカライゼーションを収束させる。
PASCAL VOC 2007/2012およびMS-COCOデータセットの実験は、SLV-SD Netの優れた性能を示している。
論文 参考訳(メタデータ) (2022-04-14T11:56:19Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Align Yourself: Self-supervised Pre-training for Fine-grained
Recognition via Saliency Alignment [34.38172454910976]
Cross-view Saliency Alignment (CVSA)は、画像のサリエンシ領域を新しいビュー生成としてトリミングし、交換し、その後、クロスビューアライメント損失を通じて、前景オブジェクトのローカライズを誘導する、対照的な学習フレームワークである。
4つの一般的な詳細な分類ベンチマークの実験により、CVSAは学習された表現を著しく改善することが示された。
論文 参考訳(メタデータ) (2021-06-30T02:56:26Z) - SLV: Spatial Likelihood Voting for Weakly Supervised Object Detection [31.421794727209935]
提案手法を収束させるため,空間的確率投票(SLV)モジュールを提案する。
与えられた画像内のすべての領域の提案は、訓練中の毎回有権者の役割を担い、空間次元における各カテゴリの可能性が投票される。
大きな可能性値の領域にアライメントを拡大した後、投票結果は境界ボックスとして正規化され、最終分類とローカライゼーションに使用される。
論文 参考訳(メタデータ) (2020-06-23T10:24:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。