論文の概要: HarmoCLIP: Harmonizing Global and Regional Representations in Contrastive Vision-Language Models
- arxiv url: http://arxiv.org/abs/2511.22594v1
- Date: Thu, 27 Nov 2025 16:24:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.643171
- Title: HarmoCLIP: Harmonizing Global and Regional Representations in Contrastive Vision-Language Models
- Title(参考訳): HarmoCLIP:コントラスト視覚言語モデルにおけるグローバル表現と地域表現の調和
- Authors: Haoxi Zeng, Haoxuan Li, Yi Bin, Pengpeng Zeng, Xing Xu, Yang Yang, Heng Tao Shen,
- Abstract要約: HarmoCLIPはContrastive Language-Image Pre-training内のグローバルおよびリージョン表現を調和させるように設計された新しいフレームワークである。
本研究では,地域レベルでの表現能力を高めるために,地域調整管理戦略を導入する。
- 参考スコア(独自算出の注目度): 63.87966115136411
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive Language-Image Pre-training (CLIP) has demonstrated remarkable generalization ability and strong performance across a wide range of vision-language tasks. However, due to the lack of region-level supervision, CLIP exhibits limited fine-grained semantic understanding. Although several methods attempt to mitigate this issue, they unintentionally disrupt the global alignment, resulting in a persistent trade-off where improving local perception simultaneously degrades global coherence. In this paper, we propose HarmoCLIP, a novel framework designed to harmonize global and region representations within CLIP. We first identify that the absence of direct alignment between local textual and visual semantics is the fundamental cause of the trade-off. To address this, HarmoCLIP introduces an explicit fine-grained semantic supervision term that directly aligns textual segments with their corresponding visual regions, effectively bridging the image region space and the textual space. To further strengthen the representation capability at the local level, our method introduces a novel Region-Language Alignment supervision strategy that promotes fine-grained semantic learning without compromising global semantic consistency. Extensive experiments demonstrate that HarmoCLIP achieves state-of-the-art (improvement up to 69.78%) performance on the global task of retrieval and yields a substantial 3.2% improvement in Top-1 accuracy on the region task of bounding-box classification, consistently outperforming prior approaches while providing a balanced, efficient, and plug-and-play solution to the global-local trade-off in CLIP. Code is available at https://github.com/Erosist/HarmoCLIP.
- Abstract(参考訳): Contrastive Language-Image Pre-Training (CLIP) は、広範囲の視覚言語タスクにおいて、顕著な一般化能力と強力な性能を示した。
しかし、地域レベルの監督が欠如しているため、CLIPは細粒度のセマンティックな理解が限られている。
いくつかの方法がこの問題を緩和しようとするが、それらは意図せずグローバルアライメントを妨害し、局所的な認識の改善が同時にグローバルコヒーレンスを低下させる、永続的なトレードオフをもたらす。
本稿では,CLIP内のグローバルおよびリージョン表現を調和させる新しいフレームワークであるHarmoCLIPを提案する。
まず、局所的なテキストと視覚的意味論の直接的な整合が欠如していることがトレードオフの根本的な原因であることを示す。
これに対処するため、HarmoCLIPは、テキストセグメントと対応する視覚領域を直接整列し、画像領域空間とテキスト空間を効果的にブリッジする、明示的なきめ細かい意味的監督用語を導入している。
局所レベルでの表現能力を一層強化するために,グローバルな意味的一貫性を損なうことなく,細粒度意味学習を促進する新しい領域言語アライメント監視戦略を導入する。
大規模な実験により、HarmoCLIPは検索のグローバルなタスクにおける最先端(最大69.78%)のパフォーマンスを達成し、境界ボックス分類の領域タスクにおけるTop-1の精度を3.2%向上し、CLIPのグローバルローカルトレードオフに対してバランスよく、効率的で、プラグアンドプレイのソリューションを提供しながら、常に先行したアプローチより優れていることが示されている。
コードはhttps://github.com/Erosist/HarmoCLIPで入手できる。
関連論文リスト
- GLip: A Global-Local Integrated Progressive Framework for Robust Visual Speech Recognition [72.29071664964633]
我々は、ロバストな視覚音声認識(VSR)のために設計されたグローバルローカル統合プログレッシブフレームワークGLipを提案する。
GLipは、グローバルな視覚的特徴とローカルな視覚的特徴の両方を、容易にアクセス可能な音声視覚データを用いて対応する音声音声単位に整合させることを学ぶ。
第2段階では、ローカル機能を関連するグローバルコンテキストと動的に統合するコンテキスト拡張モジュール(CEM)を導入します。
論文 参考訳(メタデータ) (2025-09-19T14:36:01Z) - Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception [71.26728044621458]
DeCLIPは、CLIPを強化する新しいフレームワークで、自己認識モジュールを分離して、それぞれコンテンツ’と“コンテキスト’の機能を取得する。
2D検出とセグメンテーション、3Dインスタンスのセグメンテーション、ビデオインスタンスのセグメンテーション、6Dオブジェクトのポーズ推定など、幅広いタスクにわたる最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2025-08-15T06:43:51Z) - IGL-DT: Iterative Global-Local Feature Learning with Dual-Teacher Semantic Segmentation Framework under Limited Annotation Scheme [4.247494613524502]
Semi-Supervised Semantic (SSSS)は、ラベル付き画像の小さなセットとラベルなしデータのより大きなプールを活用することにより、セグメンテーションの精度を向上させることを目的としている。
IGL-DTという2つの教師戦略を取り入れた新しい三分岐半教師付きセグメンテーションフレームワークを提案する。
本手法では,Global Context Learning と ResUnet を通した高レベルの意味指導にSwinUnet を用い,局所的学習を通じて詳細な特徴改善を行う。
論文 参考訳(メタデータ) (2025-04-14T01:51:29Z) - Refining CLIP's Spatial Awareness: A Visual-Centric Perspective [10.936397225984107]
コントラスト言語-画像 事前学習は、言語とのグローバルな整合性が優れているが、空間情報に対する感度は限られている。
最近のアプローチでは、高密度マルチモーダルタスクにおけるCLIPの性能を高めるために、Rerea-Language Alignmentを導入している。
本稿では,CLIP固有の空間構造を保存し,上記の劣化を緩和する空間相関蒸留(SCD)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-03T07:04:56Z) - DIAL: Dense Image-text ALignment for Weakly Supervised Semantic Segmentation [8.422110274212503]
弱教師付きセマンティックセグメンテーションアプローチは通常、初期シード生成にクラスアクティベーションマップ(CAM)に依存する。
DALNetは、テキストの埋め込みを利用して、さまざまなレベルの粒度のオブジェクトの包括的理解と正確な位置決めを強化する。
このアプローチは特に、シングルステージの手法として、より効率的なエンドツーエンドプロセスを可能にします。
論文 参考訳(メタデータ) (2024-09-24T06:51:49Z) - Progressive Feature Self-reinforcement for Weakly Supervised Semantic
Segmentation [55.69128107473125]
Weakly Supervised Semantic (WSSS) のイメージレベルラベルを用いたシングルステージアプローチを提案する。
我々は、画像内容が決定論的領域(例えば、自信ある前景と背景)と不確実領域(例えば、オブジェクト境界と誤分類されたカテゴリ)に適応的に分割して、別々の処理を行う。
そこで我々は,これらの自信のある領域と同一のクラスラベルを持つ拡張画像とのセマンティック一貫性を制約する補完的な自己強調手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T13:21:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。