論文の概要: $β$-CLIP: Text-Conditioned Contrastive Learning for Multi-Granular Vision-Language Alignment
- arxiv url: http://arxiv.org/abs/2512.12678v1
- Date: Sun, 14 Dec 2025 13:03:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.379506
- Title: $β$-CLIP: Text-Conditioned Contrastive Learning for Multi-Granular Vision-Language Alignment
- Title(参考訳): テキスト記述型コントラスト学習による多言語視覚言語アライメントのための$β$-CLIP
- Authors: Fatimah Zohra, Chen Zhao, Hani Itani, Bernard Ghanem,
- Abstract要約: $-CLIPは、多言語テキスト条件のコントラスト学習フレームワークである。
$-CALは、この階層に固有のセマンティックオーバーラップに対処する。
$-CLIPは、高密度視覚言語対応のための堅牢で適応的なベースラインを確立する。
- 参考スコア(独自算出の注目度): 53.42377319350806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: CLIP achieves strong zero-shot image-text retrieval by aligning global vision and text representations, yet it falls behind on fine-grained tasks even when fine-tuned on long, detailed captions. In this work, we propose $β$-CLIP, a multi-granular text-conditioned contrastive learning framework designed to achieve hierarchical alignment between multiple textual granularities-from full captions to sentences and phrases-and their corresponding visual regions. For each level of granularity, $β$-CLIP utilizes cross-attention to dynamically pool image patches, producing contextualized visual embeddings. To address the semantic overlap inherent in this hierarchy, we introduce the $β$-Contextualized Contrastive Alignment Loss ($β$-CAL). This objective parameterizes the trade-off between strict query-specific matching and relaxed intra-image contextualization, supporting both soft Cross-Entropy and hard Binary Cross-Entropy formulations. Through extensive experiments, we demonstrate that $β$-CLIP significantly improves dense alignment: achieving 91.8% T2I 92.3% I2T at R@1 on Urban1K and 30.9% on FG-OVD (Hard), setting state-of-the-art among methods trained without hard negatives. $β$-CLIP establishes a robust, adaptive baseline for dense vision-language correspondence. The code and models are released at https://github.com/fzohra/B-CLIP.
- Abstract(参考訳): CLIPは、グローバルビジョンとテキスト表現を整列させることで、強力なゼロショット画像テキスト検索を実現するが、長い詳細なキャプションを微調整しても、きめ細かいタスクに遅れる。
本研究では,複数文の粒度間の階層的アライメントを実現するために,多粒度テキスト条件のコントラスト学習フレームワークである$β$-CLIPと,それに対応する視覚領域を提案する。
それぞれのレベルの粒度に対して、$β$-CLIPはイメージパッチを動的にプールするためにクロスアテンションを使用し、コンテキスト化された視覚的埋め込みを生成する。
この階層に固有の意味的重複に対処するために、$β$-Contextualized Contrastive Alignment Loss(β$-CAL)を導入する。
この目的は、厳密なクエリ固有マッチングと緩和された画像内コンテキスト化のトレードオフをパラメータ化し、ソフトクロスエントロピーとハードバイナリクロスエントロピーの両方をサポートする。
91.8% T2I 92.3% I2T at R@1 on Urban1K, 30.9% on FG-OVD (Hard) で達成した。
β$-CLIPは、高密度視覚言語対応のための堅牢で適応的なベースラインを確立する。
コードとモデルはhttps://github.com/fzohra/B-CLIPで公開されている。
関連論文リスト
- Learning Hyperspectral Images with Curated Text Prompts for Efficient Multimodal Alignment [1.7188280334580195]
我々は、CLIPスタイルのコントラストトレーニングフレームワークを利用して、超スペクトルシーン理解のための視覚言語モデル(VLM)の最適化を試みる。
我々のフレームワークは、視覚バックボーンから凍結した大きな埋め込みモデルの潜在空間へのボクセルレベルの埋め込みをマッピングする。
提案手法は全パラメータの0.07パーセントしか更新していないが、最先端の性能が得られる。
論文 参考訳(メタデータ) (2025-09-20T23:23:04Z) - FG-CLIP: Fine-Grained Visual and Textual Alignment [3.830067625507938]
本稿では,3つの重要なイノベーションを通じて微細な理解を深めるファイングラインドCLIPを提案する。
我々は、大容量マルチモーダルモデルを用いて、世界レベルのセマンティックディテールをキャプチャするために、160億の長いキャプションイメージペアを生成する。
我々は、高品質な領域固有のアノテーションと、きめ細かい負のサンプルを統合することで、FinHARDと呼ばれる包括的データセットを構築した。
論文 参考訳(メタデータ) (2025-05-08T09:06:53Z) - TULIP: Towards Unified Language-Image Pretraining [60.99500935831526]
既存のCLIPライクなモデルの代替として,オープンソースでドロップイン可能なTを導入する。
提案手法は, 生成データの拡張, 画像画像の強化, テキストコントラスト学習, 画像/テキスト再構成正規化を利用して, きめ細かい視覚的特徴を学習する。
当社のアプローチでは、ベンチマーク全体で既存の最先端(SOTA)モデルを上回っています。
論文 参考訳(メタデータ) (2025-03-19T17:58:57Z) - $Se^2$: Sequential Example Selection for In-Context Learning [83.17038582333716]
インコンテキスト学習(ICL)のための大規模言語モデル(LLM)は、実演例によって起動する必要がある。
以前の研究は、主に"select then organize"パラダイムに従って、ICLの例の選択を幅広く検討してきた。
本稿では,この問題を$Se$quential $Se$lection問題として定式化し,シーケンシャル・アウェア法である$Se2$を導入する。
論文 参考訳(メタデータ) (2024-02-21T15:35:04Z) - Text Augmented Spatial-aware Zero-shot Referring Image Segmentation [60.84423786769453]
テキスト拡張空間認識(TAS)ゼロショット参照画像セグメンテーションフレームワークを提案する。
TASには、例レベルのマスク抽出のためのマスク提案ネットワーク、画像テキスト相関をマイニングするためのテキスト拡張ビジュアルテキストマッチングスコア、マスク後処理のための空間が含まれている。
提案手法は,最先端のゼロショット参照画像セグメンテーション法より明らかに優れている。
論文 参考訳(メタデータ) (2023-10-27T10:52:50Z) - STAIR: Learning Sparse Text and Image Representation in Grounded Tokens [84.14528645941128]
疎結合なセマンティック表現を構築することは、密度の高いプレゼンテーションと同程度、あるいはそれ以上に強力であることを示す。
CLIPモデルを拡張してスパーステキストと画像表現(STAIR)を構築し、画像とテキストをスパーストークン空間にマッピングする。
CLIPモデルでは、+4.9%$と+4.3%$絶対リコール@1の改善で大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2023-01-30T17:21:30Z) - CyCLIP: Cyclic Contrastive Language-Image Pretraining [34.588147979731374]
ペア画像テキストデータに対するコントラスト表現学習の最近の進歩は、ゼロショット分類と分布ロバスト性のための最先端性能を達成するCLIPのようなモデルにつながっている。
我々は、標準のコントラスト目的によって学習された画像とテキストの表現が交換不可能であり、不整合な下流予測につながることを実証した。
画像やテキスト空間で幾何学的に一貫した表現を明示的に最適化するコントラスト表現学習フレームワークであるCyCLIPを提案する。
論文 参考訳(メタデータ) (2022-05-28T15:31:17Z) - PyramidCLIP: Hierarchical Feature Alignment for Vision-language Model
Pretraining [68.84339672878066]
意味レベルが異なる入力ピラミッドを構築し,視覚的要素と言語的要素を階層構造として整列させる。
ゼロショット画像分類、ゼロショット画像テキスト検索、画像オブジェクト検出を含む3つの下流タスクの実験は、提案したピラミドCLIPの有効性を検証する。
論文 参考訳(メタデータ) (2022-04-29T13:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。