論文の概要: Unbiased Region-Language Alignment for Open-Vocabulary Dense Prediction
- arxiv url: http://arxiv.org/abs/2412.06244v2
- Date: Mon, 10 Mar 2025 07:19:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:50:05.575928
- Title: Unbiased Region-Language Alignment for Open-Vocabulary Dense Prediction
- Title(参考訳): 開語彙密度予測のための非バイアス領域言語アライメント
- Authors: Yunheng Li, Yuxuan Li, Quansheng Zeng, Wenhai Wang, Qibin Hou, Ming-Ming Cheng,
- Abstract要約: 事前訓練された視覚言語モデル(VLM)は、印象的なゼロショット認識能力を示したが、それでも高密度予測タスクでは性能が劣っている。
提案するDenseVLMは,非バイアスの領域言語アライメントを,強力な事前学習型VLM表現から学習するためのフレームワークである。
DenseVLMは、オープン語彙オブジェクト検出および画像分割法において、元のVLMを直接置き換えることができることを示す。
- 参考スコア(独自算出の注目度): 80.67150791183126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained vision-language models (VLMs), such as CLIP, have demonstrated impressive zero-shot recognition capability, but still underperform in dense prediction tasks. Self-distillation recently is emerging as a promising approach for fine-tuning VLMs to better adapt to local regions without requiring extensive annotations. However, previous state-of-the-art approaches often suffer from significant `foreground bias', where models tend to wrongly identify background regions as foreground objects. To alleviate this issue, we propose DenseVLM, a framework designed to learn unbiased region-language alignment from powerful pre-trained VLM representations. To alleviate this issue, we propose DenseVLM, a framework designed to learn unbiased region-language alignment from powerful pre-trained VLM representations. DenseVLM leverages the pre-trained VLM to retrieve categories for unlabeled regions and then decouples the interference between foreground and background features. We show that DenseVLM can directly replace the original VLM in open-vocabulary object detection and image segmentation methods, leading to notable performance improvements. Furthermore, it exhibits promising zero-shot scalability when training on more extensive and diverse datasets. Our code is available at https://github.com/HVision-NKU/DenseVLM.
- Abstract(参考訳): CLIPのような事前訓練された視覚言語モデル(VLM)は、印象的なゼロショット認識能力を示しているが、それでも高密度予測タスクでは性能が劣っている。
最近の自己蒸留は、広範囲なアノテーションを必要とせず、ローカルな領域に適応するための微調整VLMのための有望なアプローチとして現れている。
しかし、従来の最先端アプローチでは、モデルが背景領域を前景オブジェクトとして誤って識別する傾向にある、重大な「地上バイアス」に悩まされることが多い。
この問題を軽減するために、我々は、強力な事前学習されたVLM表現から非バイアスの領域言語アライメントを学習するためのフレームワークであるDenseVLMを提案する。
この問題を軽減するために、我々は、強力な事前学習されたVLM表現から非バイアスの領域言語アライメントを学習するためのフレームワークであるDenseVLMを提案する。
DenseVLMはトレーニング済みのVLMを利用してラベルのない領域のカテゴリを検索し、前景と背景の特徴の干渉を分離する。
DenseVLMは、オープン語彙オブジェクト検出および画像分割法において、元のVLMを直接置き換えることが可能であることを示し、顕著な性能改善を実現している。
さらに、より広範囲で多様なデータセットのトレーニングでは、ゼロショットのスケーラビリティが期待できる。
私たちのコードはhttps://github.com/HVision-NKU/DenseVLM.comで公開されています。
関連論文リスト
- BendVLM: Test-Time Debiasing of Vision-Language Embeddings [31.033058277888234]
視覚言語モデル(VLM)埋め込みは、トレーニングデータに存在するバイアスを符号化する。
VLMを微調整するデバイアスングアプローチは、しばしば破滅的な忘れ物に悩まされる。
本稿では,VLM埋込脱バイアスに対する非線形,微調整不要なアプローチであるBend-VLMを提案する。
論文 参考訳(メタデータ) (2024-11-07T04:16:15Z) - Locality Alignment Improves Vision-Language Models [55.275235524659905]
近年では視覚言語モデル (VLM) が普及しているが、その多くが基本的な空間推論の誤りに悩まされている。
局所性アライメント(Locality alignment)と呼ばれる,視覚障害者のための新しい学習段階を提案する。
局所性に整合したバックボーンは、様々なベンチマークでパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-10-14T21:01:01Z) - OpenDAS: Open-Vocabulary Domain Adaptation for 2D and 3D Segmentation [54.98688607911399]
視覚言語モデル(VLM)にドメイン固有の知識を注入するオープン語彙ドメイン適応の課題を提案する。
既存のVLM適応手法では、ベース(トレーニング)クエリのパフォーマンスが向上するが、新しいクエリ上でのVLMのオープンセット能力を維持できない。
我々のアプローチは、新しいクラスにおける元のVLMを一貫して上回るパラメータ効率の手法である。
論文 参考訳(メタデータ) (2024-05-30T15:16:06Z) - Harnessing Large Language Models for Training-free Video Anomaly Detection [34.76811491190446]
ビデオ異常検出(VAD)は、ビデオ内の異常事象を時間的に検出することを目的としている。
トレーニングベースのメソッドはドメイン固有のものになりがちなので、実践的なデプロイメントにはコストがかかる。
Language-based VAD (LAVAD)を提案する。
論文 参考訳(メタデータ) (2024-04-01T09:34:55Z) - Optimization Efficient Open-World Visual Region Recognition [55.76437190434433]
RegionSpotは、ローカライゼーション基盤モデルから位置認識ローカライゼーション知識と、ViLモデルからのセマンティック情報を統合する。
オープンワールドオブジェクト認識の実験では、私たちのRereaSpotは、以前の代替よりも大きなパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-11-02T16:31:49Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z) - F-VLM: Open-Vocabulary Object Detection upon Frozen Vision and Language
Models [54.21757555804668]
F-VLMは,凍結視覚と言語モデルに基づくシンプルなオープン語彙オブジェクト検出手法である。
F-VLMは、知識蒸留や検出調整事前訓練の必要性を排除し、現在の多段階訓練パイプラインを単純化する。
論文 参考訳(メタデータ) (2022-09-30T17:59:52Z) - Spatial Likelihood Voting with Self-Knowledge Distillation for Weakly
Supervised Object Detection [54.24966006457756]
自己知識蒸留ネットワーク(SLV-SDネット)を用いたWSODフレームワークを提案する。
SLV-SD Netは、境界ボックスアノテーションなしで領域提案のローカライゼーションを収束させる。
PASCAL VOC 2007/2012およびMS-COCOデータセットの実験は、SLV-SD Netの優れた性能を示している。
論文 参考訳(メタデータ) (2022-04-14T11:56:19Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Align Yourself: Self-supervised Pre-training for Fine-grained
Recognition via Saliency Alignment [34.38172454910976]
Cross-view Saliency Alignment (CVSA)は、画像のサリエンシ領域を新しいビュー生成としてトリミングし、交換し、その後、クロスビューアライメント損失を通じて、前景オブジェクトのローカライズを誘導する、対照的な学習フレームワークである。
4つの一般的な詳細な分類ベンチマークの実験により、CVSAは学習された表現を著しく改善することが示された。
論文 参考訳(メタデータ) (2021-06-30T02:56:26Z) - SLV: Spatial Likelihood Voting for Weakly Supervised Object Detection [31.421794727209935]
提案手法を収束させるため,空間的確率投票(SLV)モジュールを提案する。
与えられた画像内のすべての領域の提案は、訓練中の毎回有権者の役割を担い、空間次元における各カテゴリの可能性が投票される。
大きな可能性値の領域にアライメントを拡大した後、投票結果は境界ボックスとして正規化され、最終分類とローカライゼーションに使用される。
論文 参考訳(メタデータ) (2020-06-23T10:24:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。