論文の概要: ABE-CLIP: Training-Free Attribute Binding Enhancement for Compositional Image-Text Matching
- arxiv url: http://arxiv.org/abs/2512.17178v1
- Date: Fri, 19 Dec 2025 02:36:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.2198
- Title: ABE-CLIP: Training-Free Attribute Binding Enhancement for Compositional Image-Text Matching
- Title(参考訳): ABE-CLIP: 合成画像テキストマッチングのための学習自由属性結合強化
- Authors: Qi Zhang, Yuxu Chen, Lei Deng, Lili Shen,
- Abstract要約: ABE-CLIPは、CLIPのようなモデルにおける属性オブジェクトのバインディングを強化するために設計された、トレーニング不要な属性バインディング拡張手法である。
我々はセマンティック・リファインメント(Semantic Refinement)機構を用いて、テキスト中のオブジェクトと属性の両方のフレーズに対するトークンの埋め込みを洗練する。
局所化類似度スコアを集約することにより、ABE-CLIPは最終的な画像-テキスト類似度を計算する。
- 参考スコア(独自算出の注目度): 9.610261779024219
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive Language-Image Pretraining (CLIP) has achieved remarkable performance in various multimodal tasks. However, it still struggles with compositional image-text matching, particularly in accurately associating objects with their corresponding attributes, because its inherent global representation often overlooks fine-grained semantics for attribute binding. Existing methods often require additional training or extensive hard negative sampling, yet they frequently show limited generalization to novel compositional concepts and fail to fundamentally address the drawbacks of global representations. In this paper, we propose ABE-CLIP, a novel training-free Attribute Binding Enhancement method designed to strengthen attribute-object binding in CLIP-like models. Specifically, we employ a Semantic Refinement Mechanism to refine token embeddings for both object and attribute phrases in the text, thereby mitigating attribute confusion and improving semantic precision. We further introduce a Local Token-Patch Alignment strategy that computes similarity scores between refined textual tokens and their most relevant image patches. By aggregating localized similarity scores, ABE-CLIP computes the final image-text similarity. Experiments on multiple datasets demonstrate that ABE-CLIP significantly improves attribute-object binding performance, even surpassing methods that require extensive training.
- Abstract(参考訳): Contrastive Language-Image Pretraining (CLIP)は、様々なマルチモーダルタスクにおいて顕著なパフォーマンスを実現している。
しかしながら、特にオブジェクトと対応する属性を正確に関連付ける場合、その固有のグローバル表現は、属性バインディングの詳細なセマンティクスを見落としているため、構成的な画像テキストマッチングに苦慮している。
既存の手法は、しばしば追加の訓練や広範な強陰性サンプリングを必要とするが、新しい構成概念への限定的な一般化をしばしば示し、グローバル表現の欠点を根本的に解決することができない。
本稿では,CLIP型モデルにおける属性オブジェクトのバインディング強化を目的とした,新しいトレーニング不要な属性バインディング拡張手法であるABE-CLIPを提案する。
具体的には、セマンティック・リファインメント機構を用いて、テキスト中のオブジェクトと属性句の両方のトークンの埋め込みを洗練し、属性の混乱を緩和し、意味的精度を向上させる。
さらに、改良されたテキストトークンと最も関連性の高い画像パッチの類似点を計算するローカルトークンマッチングアライメント戦略を導入する。
局所化類似度スコアを集約することにより、ABE-CLIPは最終的な画像-テキスト類似度を計算する。
複数のデータセットの実験では、ABE-CLIPは属性オブジェクトのバインディング性能を著しく改善し、広範囲なトレーニングを必要とするメソッドを超越している。
関連論文リスト
- VSC: Visual Search Compositional Text-to-Image Diffusion Model [15.682990658945682]
本稿では,一対のイメージ埋め込みを利用して属性オブジェクトの結合を改善する新しい合成生成手法を提案する。
提案手法は,複雑なプロンプトをサブプロンプトに分解し,対応する画像を生成し,テキスト埋め込みと融合して表現を強化する視覚プロトタイプを計算する。
提案手法は,T2I CompBenchベンチマークにおける既存の合成テキスト・画像拡散モデルより優れ,画像品質の向上,人間による評価,およびプロンプト内の結合対のスケーリングによる堅牢性の向上を実現している。
論文 参考訳(メタデータ) (2025-05-02T08:31:43Z) - LATex: Leveraging Attribute-based Text Knowledge for Aerial-Ground Person Re-Identification [78.73711446918814]
我々は,属性ベースのテキスト知識を活用するために,アクシデントチューニング戦略を採用した,AG-ReIDのためのLATexという新しいフレームワークを提案する。
我々のフレームワークは属性ベースのテキスト知識をフル活用してAGReIDの性能を向上させることができる。
論文 参考訳(メタデータ) (2025-03-31T04:47:05Z) - Finetuning CLIP to Reason about Pairwise Differences [52.028073305958074]
本稿では,CLIPのような視覚言語モデルの学習手法を提案する。
画像間の差異のテキスト記述が画像埋め込み空間の差に対応するようにCLIPを微調整する。
提案手法は,特定の属性によって画像のランク付け能力を大幅に向上させ,下流画像分類タスクにおけるゼロショット分類性能を向上する。
論文 参考訳(メタデータ) (2024-09-15T13:02:14Z) - Attribute-Aware Implicit Modality Alignment for Text Attribute Person Search [19.610244285078483]
本稿では,テキスト属性と画像間の局所的な表現の対応を学習するためのAIMA(Attribute-Aware Implicit Modality Alignment)フレームワークを提案する。
提案手法は,現在の最先端手法をはるかに上回ることを示す。
論文 参考訳(メタデータ) (2024-06-06T03:34:42Z) - Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文 参考訳(メタデータ) (2024-04-27T14:43:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。