論文の概要: CalibCLIP: Contextual Calibration of Dominant Semantics for Text-Driven Image Retrieval
- arxiv url: http://arxiv.org/abs/2510.05586v1
- Date: Tue, 07 Oct 2025 05:16:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.108691
- Title: CalibCLIP: Contextual Calibration of Dominant Semantics for Text-Driven Image Retrieval
- Title(参考訳): CalibCLIP:テキスト駆動画像検索のための支配的セマンティクスの文脈校正
- Authors: Bin Kang, Bin Chen, Junjie Wang, Yulin Li, Junzhi Zhao, Zhuotao Tian,
- Abstract要約: CalibCLIPは、支配トークンの抑制効果を校正するために設計された訓練不要の方法である。
本稿では,視覚的特徴をターゲット領域と低情報領域に分離するContrastive Visual Enhancerを提案する。
テキスト空間では,一般概念と差別概念の区別を目的とした識別概念キャリブレータを導入する。
- 参考スコア(独自算出の注目度): 32.19047293714607
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing Visual Language Models (VLMs) suffer structural limitations where a few low contribution tokens may excessively capture global semantics, dominating the information aggregation process and suppressing the discriminative features in text-driven image retrieval tasks. To address this, we introduce \textbf{CalibCLIP}, a training-free method designed to calibrate the suppressive effect of dominant tokens. Specifically, in the visual space, we propose the Contrastive Visual Enhancer (CVE), which decouples visual features into target and low information regions. Subsequently, it identifies dominant tokens and dynamically suppresses their representations.In the textual space, we introduce the Discriminative Concept Calibrator (DCC), which aims to differentiate between general and discriminative concepts within the text query. By mitigating the challenges posed by generic concepts and improving the representations of discriminative concepts, DCC strengthens the differentiation among similar samples. Finally, extensive experiments demonstrate consistent improvements across seven benchmarks spanning three image retrieval tasks, underscoring the effectiveness of CalibCLIP. Code is available at: https://github.com/kangbin98/CalibCLIP
- Abstract(参考訳): 既存のビジュアル言語モデル(VLM)は、いくつかの低コントリビューショントークンがグローバルなセマンティクスを過剰にキャプチャし、情報集約プロセスを支配し、テキスト駆動画像検索タスクにおける識別的特徴を抑える構造的制限を被っている。
これを解決するために、支配トークンの抑制効果を校正する訓練不要な方法である \textbf{CalibCLIP} を導入する。
具体的には、視覚空間において、視覚的特徴をターゲット領域と低情報領域に分離するContrastive Visual Enhancer (CVE)を提案する。
その後、支配的トークンを識別し、それらの表現を動的に抑制する。テキスト空間では、テキストクエリ内の一般的な概念と差別的な概念の区別を目的とした差別的概念キャリブレータ(DCC)を導入する。
一般的な概念によって引き起こされる課題を緩和し、差別的概念の表現を改善することで、DCCは類似したサンプルの区別を強化する。
最後に、大規模な実験では、3つの画像検索タスクにまたがる7つのベンチマークで一貫した改善が示され、CalibCLIPの有効性が強調された。
コードは、https://github.com/kangbin98/CalibCLIPで入手できる。
関連論文リスト
- Context-Adaptive Multi-Prompt Embedding with Large Language Models for Vision-Language Alignment [33.152772648399846]
本稿では,視覚言語によるコントラスト学習における意味表現を豊かにするための新しい手法を提案する。
プリトレーニング済みのLLMをCLIPフレームワーク内のテキストエンコーダとして利用し、すべてのプロンプトを1つのフォワードパスで共同処理します。
結果として得られる即時埋め込みは統一されたテキスト表現に統合され、視覚的特徴とのセマンティックにリッチなアライメントを可能にする。
論文 参考訳(メタデータ) (2025-08-03T20:48:43Z) - SmartCLIP: Modular Vision-language Alignment with Identification Guarantees [59.16312652369709]
Contrastive Language-Image Pre-Traiing (CLIP)citepradford2021 Learningは、コンピュータビジョンとマルチモーダル学習において重要なモデルとして登場した。
CLIPは、多くの画像テキストデータセットにおける潜在的な情報ミスアライメントに苦労し、絡み合った表現に悩まされている。
モジュラー方式で、最も関連性の高い視覚的およびテキスト的表現を特定し、調整する新しいアプローチである。
論文 参考訳(メタデータ) (2025-07-29T22:26:20Z) - Rethinking Visual Token Reduction in LVLMs under Cross-modal Misalignment [38.04426918886084]
視覚言語モデル(LVLM)は、視覚入力をパッチレベルのトークンの密度の高いシーケンスとしてエンコードし、微細なセマンティクスをキャプチャする。
これまでは、大型言語モデル(LLM)の前か中のいずれかで、視覚トークンの削減を検討してきた。
トレーニングフリーで視覚のみのプルーニングフレームワークであるVisionDropを導入し、モーダル内(視覚から視覚への)注目に基づいて情報的視覚トークンを選択する。
論文 参考訳(メタデータ) (2025-06-27T14:55:40Z) - Descriminative-Generative Custom Tokens for Vision-Language Models [101.40245125955306]
本稿では,視覚言語モデル(VLM)における新しい概念を表現するためのカスタムトークンの学習の可能性について検討する。
本研究の目的は,識別的タスクと生成的タスクの両方に有効なトークンを学習し,単語をうまく合成して新しい入力クエリを構築することである。
論文 参考訳(メタデータ) (2025-02-17T18:13:42Z) - Advancing Myopia To Holism: Fully Contrastive Language-Image Pre-training [30.071860810401933]
本稿では,対照的な言語イメージ事前学習(CLIP)を1つの新しい包括的パラダイムに発展させる。
画像からテキストへのキャプションを用いて、複数の視点、粒度、階層から各画像のマルチテキストを生成する。
私たちの総合的なCLIPは、画像テキスト検索、オープン語彙分類、濃密な視覚タスクなど、既存のCLIPよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-11-30T11:27:58Z) - Rewrite Caption Semantics: Bridging Semantic Gaps for
Language-Supervised Semantic Segmentation [100.81837601210597]
本研究では,事前学習データにおける視覚的意味論とテキスト的意味論のギャップを埋めるための概念キュレーション(CoCu)を提案する。
CoCuは、最高にゼロショット転送性能を達成し、言語教師ありセグメンテーションベースラインを大きなマージンで大幅に向上させる。
論文 参考訳(メタデータ) (2023-09-24T00:05:39Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。