論文の概要: Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception
- arxiv url: http://arxiv.org/abs/2508.11256v1
- Date: Fri, 15 Aug 2025 06:43:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.766079
- Title: Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception
- Title(参考訳): オープンボキャブラリディエンス認知の促進のための一般化デカップリング学習
- Authors: Junjie Wang, Keyu Chen, Yulin Li, Bin Chen, Hengshuang Zhao, Xiaojuan Qi, Zhuotao Tian,
- Abstract要約: DeCLIPは、CLIPを強化する新しいフレームワークで、自己認識モジュールを分離して、それぞれコンテンツ’と“コンテキスト’の機能を取得する。
2D検出とセグメンテーション、3Dインスタンスのセグメンテーション、ビデオインスタンスのセグメンテーション、6Dオブジェクトのポーズ推定など、幅広いタスクにわたる最先端のパフォーマンスを一貫して達成する。
- 参考スコア(独自算出の注目度): 71.26728044621458
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dense visual perception tasks have been constrained by their reliance on predefined categories, limiting their applicability in real-world scenarios where visual concepts are unbounded. While Vision-Language Models (VLMs) like CLIP have shown promise in open-vocabulary tasks, their direct application to dense perception often leads to suboptimal performance due to limitations in local feature representation. In this work, we present our observation that CLIP's image tokens struggle to effectively aggregate information from spatially or semantically related regions, resulting in features that lack local discriminability and spatial consistency. To address this issue, we propose DeCLIP, a novel framework that enhances CLIP by decoupling the self-attention module to obtain ``content'' and ``context'' features respectively. \revise{The context features are enhanced by jointly distilling semantic correlations from Vision Foundation Models (VFMs) and object integrity cues from diffusion models, thereby enhancing spatial consistency. In parallel, the content features are aligned with image crop representations and constrained by region correlations from VFMs to improve local discriminability. Extensive experiments demonstrate that DeCLIP establishes a solid foundation for open-vocabulary dense perception, consistently achieving state-of-the-art performance across a broad spectrum of tasks, including 2D detection and segmentation, 3D instance segmentation, video instance segmentation, and 6D object pose estimation.} Code is available at https://github.com/xiaomoguhz/DeCLIP
- Abstract(参考訳): 視覚的知覚タスクは、事前に定義されたカテゴリに依存しているため、視覚的概念が無界な現実のシナリオにおける適用性が制限されている。
CLIPのような視覚言語モデル(VLM)は、オープン語彙タスクにおいて有望であるが、密集した知覚への直接的な適用は、局所的な特徴表現の制限により、しばしば準最適パフォーマンスをもたらす。
本研究では,CLIPの画像トークンが空間的・意味的に関連のある領域からの情報を効果的に集約するのに苦慮し,局所的な識別性や空間的整合性に欠ける特徴を提示する。
この問題に対処するため,DeCLIPを提案する。これは,自己保持モジュールを分離して,それぞれ ``content'' と ``context'' の機能を取得することで,CLIP を強化する新しいフレームワークである。
文脈特徴は、Vision Foundation Models (VFMs) と拡散モデルからのオブジェクト整合性を共同で蒸留することにより拡張され、空間整合性を高める。
並行して、コンテンツ特徴は画像作物の表現と一致し、VFMからの領域相関によって制約され、局所的な識別性を改善する。
広汎な実験により、DeCLIPはオープン語彙密度知覚の基礎を確立し、2D検出とセグメンテーション、3Dインスタンスセグメンテーション、ビデオインスタンスセグメンテーション、および6Dオブジェクトポーズ推定を含む幅広いタスクの最先端性能を一貫して達成している。
Codeはhttps://github.com/xiaomoguhz/DeCLIPで入手できる。
関連論文リスト
- Weakly-Supervised Image Forgery Localization via Vision-Language Collaborative Reasoning Framework [16.961220047066792]
ViLaCoは視覚言語の共同推論フレームワークで、事前訓練された視覚言語モデルから抽出した補助的セマンティックインスペクションを導入する。
ViLaCoは既存のWSIFL法を大幅に上回り、検出精度とローカライゼーション精度の両方で最先端の性能を達成する。
論文 参考訳(メタデータ) (2025-08-02T12:14:29Z) - LIRA: Inferring Segmentation in Large Multi-modal Models with Local Interleaved Region Assistance [54.683384204063934]
大規模マルチモーダルモデル(LMM)は不正確なセグメンテーションと幻覚的理解に苦しむ。
視覚的理解とセグメンテーションの相補的関係を生かしたフレームワークであるLIRAを提案する。
LIRAはセグメンテーションと理解タスクの両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-07-08T07:46:26Z) - DeCLIP: Decoupled Learning for Open-Vocabulary Dense Perception [21.87721909270275]
DeCLIPはCLIPをコンテンツとコンテキストの機能で強化する新しいフレームワークである。
複数の開語彙密接な予測タスクで既存の手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-05-07T13:46:34Z) - Refining CLIP's Spatial Awareness: A Visual-Centric Perspective [10.936397225984107]
コントラスト言語-画像 事前学習は、言語とのグローバルな整合性が優れているが、空間情報に対する感度は限られている。
最近のアプローチでは、高密度マルチモーダルタスクにおけるCLIPの性能を高めるために、Rerea-Language Alignmentを導入している。
本稿では,CLIP固有の空間構造を保存し,上記の劣化を緩和する空間相関蒸留(SCD)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-03T07:04:56Z) - ResCLIP: Residual Attention for Training-free Dense Vision-language Inference [27.551367463011008]
CLIPの非最終層における自己注意の相互相関も局在特性を示す。
本稿では, 中間層からの相互相関自己アテンションを利用して, 最終ブロックの注意を再認識するResidual Cross-correlation Self-attention (RCS) モジュールを提案する。
RCSモジュールは空間情報を効果的に再構成し、高密度視覚言語推論のためのCLIP内の局在電位を解放する。
論文 参考訳(メタデータ) (2024-11-24T14:14:14Z) - ProxyCLIP: Proxy Attention Improves CLIP for Open-Vocabulary Segmentation [32.852004564832455]
オープン語彙セマンティックセグメンテーションは、視覚表現とセマンティックラベルを統合するモデルを必要とする。
本稿では,CLIP(Contrastive Language- Image Pre-Training)とVFM(Vision Foundation Models)の強みを調和させるフレームワークであるProxyCLIPを紹介する。
トレーニングなしのアプローチとして、ProxyCLIP は平均的な平均接点(mIoU)を40.3から44.4までの8つのベンチマークで大幅に改善する。
論文 参考訳(メタデータ) (2024-08-09T06:17:00Z) - UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World Understanding [90.74967596080982]
本稿では,マルチグラニュラリティアライメントを備えたコントラスト言語-画像事前学習(CLIP)を拡張した。
UMG-CLIPと呼ばれる統一多言語学習フレームワークを開発した。
パラメータ効率のよいチューニングにより、UMG-CLIPは、現在広く使われているCLIPの亜種を超え、多様な画像理解ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-12T06:35:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。