論文の概要: DeCLIP: Decoupled Learning for Open-Vocabulary Dense Perception
- arxiv url: http://arxiv.org/abs/2505.04410v1
- Date: Wed, 07 May 2025 13:46:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:36.0934
- Title: DeCLIP: Decoupled Learning for Open-Vocabulary Dense Perception
- Title(参考訳): DeCLIP: オープン語彙認識のための分離学習
- Authors: Junjie Wang, Bin Chen, Yulin Li, Bin Kang, Yichi Chen, Zhuotao Tian,
- Abstract要約: DeCLIPはCLIPをコンテンツとコンテキストの機能で強化する新しいフレームワークである。
複数の開語彙密接な予測タスクで既存の手法を著しく上回っている。
- 参考スコア(独自算出の注目度): 21.87721909270275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dense visual prediction tasks have been constrained by their reliance on predefined categories, limiting their applicability in real-world scenarios where visual concepts are unbounded. While Vision-Language Models (VLMs) like CLIP have shown promise in open-vocabulary tasks, their direct application to dense prediction often leads to suboptimal performance due to limitations in local feature representation. In this work, we present our observation that CLIP's image tokens struggle to effectively aggregate information from spatially or semantically related regions, resulting in features that lack local discriminability and spatial consistency. To address this issue, we propose DeCLIP, a novel framework that enhances CLIP by decoupling the self-attention module to obtain ``content'' and ``context'' features respectively. The ``content'' features are aligned with image crop representations to improve local discriminability, while ``context'' features learn to retain the spatial correlations under the guidance of vision foundation models, such as DINO. Extensive experiments demonstrate that DeCLIP significantly outperforms existing methods across multiple open-vocabulary dense prediction tasks, including object detection and semantic segmentation. Code is available at \textcolor{magenta}{https://github.com/xiaomoguhz/DeCLIP}.
- Abstract(参考訳): 視覚的予測タスクは、事前に定義されたカテゴリに依存しているため、視覚的概念が無界な現実のシナリオにおける適用性が制限されている。
CLIPのような視覚言語モデル(VLM)は、オープン語彙タスクにおいて有望であるが、密集した予測への直接的な適用は、局所的な特徴表現の制限により、しばしば準最適パフォーマンスをもたらす。
本研究では,CLIPの画像トークンが空間的・意味的に関連のある領域からの情報を効果的に集約するのに苦慮し,局所的な識別性や空間的整合性に欠ける特徴を提示する。
この問題に対処するため,DeCLIPを提案する。これは,自己保持モジュールを分離して,それぞれ ``content'' と ``context'' の機能を取得することで,CLIP を強化する新しいフレームワークである。
コンテント」の特徴は、局所的な識別性を改善するために画像作物の表現と一致しているが、「コンテクスト」の特徴は、DINOのような視覚基盤モデルの指導の下で空間的相関を維持することを学ぶ。
大規模な実験により、DeCLIPは、オブジェクト検出やセマンティックセグメンテーションを含む複数のオープン語彙の密接な予測タスクにおいて、既存のメソッドよりも大幅に優れていることが示された。
コードは、textcolor{magenta}{https://github.com/xiaomoguhz/DeCLIP}で入手できる。
関連論文リスト
- Refining CLIP's Spatial Awareness: A Visual-Centric Perspective [10.936397225984107]
コントラスト言語-画像 事前学習は、言語とのグローバルな整合性が優れているが、空間情報に対する感度は限られている。
最近のアプローチでは、高密度マルチモーダルタスクにおけるCLIPの性能を高めるために、Rerea-Language Alignmentを導入している。
本稿では,CLIP固有の空間構造を保存し,上記の劣化を緩和する空間相関蒸留(SCD)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-03T07:04:56Z) - ResCLIP: Residual Attention for Training-free Dense Vision-language Inference [27.551367463011008]
CLIPの非最終層における自己注意の相互相関も局在特性を示す。
本稿では, 中間層からの相互相関自己アテンションを利用して, 最終ブロックの注意を再認識するResidual Cross-correlation Self-attention (RCS) モジュールを提案する。
RCSモジュールは空間情報を効果的に再構成し、高密度視覚言語推論のためのCLIP内の局在電位を解放する。
論文 参考訳(メタデータ) (2024-11-24T14:14:14Z) - ClearCLIP: Decomposing CLIP Representations for Dense Vision-Language Inference [32.852004564832455]
我々はCLIPのアーキテクチャを再検討し、残余接続をセグメンテーション品質を劣化させるノイズの主源として同定する。
オープン語彙セマンティックセグメンテーションを強化するためにCLIPの表現を分解する新しいアプローチであるClearCLIPを提案する。
論文 参考訳(メタデータ) (2024-07-17T09:52:20Z) - Explore the Potential of CLIP for Training-Free Open Vocabulary Semantic Segmentation [38.16802763051431]
トレーニング不要なセマンティックセグメンテーション戦略であるCLIPtraseを提案する。
パッチ間の自己相関を補正することで、局所的な特徴認識を高める。
実験の結果、CLIPよりも平均して9つのセグメンテーションベンチマークで22.3%先行していることがわかった。
論文 参考訳(メタデータ) (2024-07-11T08:12:16Z) - UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World Understanding [90.74967596080982]
本稿では,マルチグラニュラリティアライメントを備えたコントラスト言語-画像事前学習(CLIP)を拡張した。
UMG-CLIPと呼ばれる統一多言語学習フレームワークを開発した。
パラメータ効率のよいチューニングにより、UMG-CLIPは、現在広く使われているCLIPの亜種を超え、多様な画像理解ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-12T06:35:09Z) - Open-Vocabulary Segmentation with Semantic-Assisted Calibration [68.41025728960176]
オープンボキャブラリセグメンテーション(OVS)は,CLIPの文脈に先行して,語彙内およびドメインバイアスの埋め込み空間を校正することで研究される。
オープン語彙セグメンテーションベンチマークにおける最先端性能を実現するために,セマンティック・アシブ・キャリブレーション・ネットワーク(SCAN)を提案する。
論文 参考訳(メタデータ) (2023-12-07T07:00:09Z) - A Closer Look at the Explainability of Contrastive Language-Image Pre-training [16.10032166963232]
Contrastive Language-image Pre-training (CLIP)は、様々なタスクに対して大きなメリットを示す強力なビジョン言語モデルである。
我々は,その信頼性を損なうような説明可能性の問題と,関連するタスクのキャパシティの制限を指摘した。
本稿では,CLIP surgery for reliable CAMを提案する。
論文 参考訳(メタデータ) (2023-04-12T07:16:55Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。