論文の概要: Seeing What Matters: Empowering CLIP with Patch Generation-to-Selection
- arxiv url: http://arxiv.org/abs/2503.17080v1
- Date: Fri, 21 Mar 2025 12:10:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:56:38.506439
- Title: Seeing What Matters: Empowering CLIP with Patch Generation-to-Selection
- Title(参考訳): 重要なこと:パッチ生成と選択によるCLIPの強化
- Authors: Gensheng Pei, Tao Chen, Yujia Wang, Xinhao Cai, Xiangbo Shu, Tianfei Zhou, Yazhou Yao,
- Abstract要約: 本稿では,CLIPのトレーニング効率を高めるために,パッチ生成と選択という簡潔で効果的なアプローチを提案する。
私たちのアプローチであるCLIP-PGSは、ゼロショット分類と検索タスクにおいて、新しい最先端結果を設定する。
- 参考スコア(独自算出の注目度): 54.21851618853518
- License:
- Abstract: The CLIP model has demonstrated significant advancements in aligning visual and language modalities through large-scale pre-training on image-text pairs, enabling strong zero-shot classification and retrieval capabilities on various domains. However, CLIP's training remains computationally intensive, with high demands on both data processing and memory. To address these challenges, recent masking strategies have emerged, focusing on the selective removal of image patches to improve training efficiency. Although effective, these methods often compromise key semantic information, resulting in suboptimal alignment between visual features and text descriptions. In this work, we present a concise yet effective approach called Patch Generation-to-Selection to enhance CLIP's training efficiency while preserving critical semantic content. Our method introduces a gradual masking process in which a small set of candidate patches is first pre-selected as potential mask regions. Then, we apply Sobel edge detection across the entire image to generate an edge mask that prioritizes the retention of the primary object areas. Finally, similarity scores between the candidate mask patches and their neighboring patches are computed, with optimal transport normalization refining the selection process to ensure a balanced similarity matrix. Our approach, CLIP-PGS, sets new state-of-the-art results in zero-shot classification and retrieval tasks, achieving superior performance in robustness evaluation and language compositionality benchmarks.
- Abstract(参考訳): CLIPモデルは、画像とテキストのペアで大規模な事前トレーニングを行うことで、視覚と言語のモダリティの整合性を大幅に向上させ、様々なドメインで強力なゼロショット分類と検索機能を実現する。
しかし、CLIPのトレーニングは計算集約的であり、データ処理とメモリの両方に高い需要がある。
これらの課題に対処するため、最近のマスキング戦略が登場し、トレーニング効率を向上させるためにイメージパッチを選択的に除去することに焦点を当てている。
効果はあるものの、これらの手法はしばしば鍵となる意味情報を妥協し、視覚的特徴とテキスト記述の間の最適以下のアライメントをもたらす。
本稿では,CLIPのトレーニング効率を向上させるために,Patch Generation-to-Selectionと呼ばれる簡潔で効果的な手法を提案する。
提案手法では,少数の候補パッチをマスク領域として事前に選択する段階的なマスキング手法を提案する。
次に、画像全体にわたってソベルエッジ検出を適用し、一次対象領域の保持を優先するエッジマスクを生成する。
最後に、候補マスクパッチと隣接するパッチとの類似度スコアを計算し、最適輸送正規化により選択過程を精算し、バランスの取れた類似度行列を確保する。
私たちのアプローチであるCLIP-PGSは、ゼロショット分類と検索タスクにおいて、新しい最先端結果を設定し、ロバストネス評価と言語構成性ベンチマークにおいて優れた性能を実現する。
関連論文リスト
- Globality Strikes Back: Rethinking the Global Knowledge of CLIP in Training-Free Open-Vocabulary Semantic Segmentation [5.3499687969383345]
最近の研究は、CLIPを修正して、トレーニング不要な方法でセマンティックセグメンテーションを行う(TF-OVSS)。
これらの変更により、CLIPがグローバルコンテキスト情報を集約する能力は大きく低下する。
TF-OVSSタスクを促進するために,CLIPの有益なグローバル知識をマイニングするGCLIPという新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-05T03:37:50Z) - Adapting Vision-Language Model with Fine-grained Semantics for Open-Vocabulary Segmentation [42.020470627552136]
オープン語彙のセグメンテーションは、主にマスク生成ではなく、マスク分類によってボトルネックとなる。
本稿では,この制限に対処するためのFISA法を提案する。
FISAは、視覚符号化プロセスの初期に、この重要な意味情報を明示的に統合することにより、抽出した視覚的特徴をきめ細かな意味認識で強化する。
論文 参考訳(メタデータ) (2024-09-24T17:50:28Z) - Adaptive Patch Contrast for Weakly Supervised Semantic Segmentation [21.719002349607308]
画像レベルラベルのみを用いたWSSS(Weakly Supervised Semantic Semantic Semantic Semantic Semantic Semantic Semantic Semantic Semantic Semantic Semantic Semantic Semantic Semantic Semantic Semantic Semantic Semantic Semantic Semantic Semantic Semantic Semantic Semantic Semantic Semantic Semantic Semantic Semantic
視覚変換器(ViT)に基づく最近の手法は、信頼性の高い擬似ラベルを生成するのに優れた能力を示している。
我々は、パッチ埋め込み学習を大幅に強化する、テキストパッチコントラスト(APC)と呼ばれる新しいViTベースのWSSS手法を提案する。
論文 参考訳(メタデータ) (2024-07-15T12:10:05Z) - Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。
高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。
さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文 参考訳(メタデータ) (2024-04-27T02:04:36Z) - Variance-insensitive and Target-preserving Mask Refinement for
Interactive Image Segmentation [68.16510297109872]
ポイントベースのインタラクティブなイメージセグメンテーションは、セマンティックセグメンテーションや画像編集といったアプリケーションにおけるマスクアノテーションの負担を軽減することができる。
本稿では,ユーザ入力の少ないセグメンテーション品質を向上する新しい手法である可変無感・ターゲット保存マスクリファインメントを提案する。
GrabCut、バークレー、SBD、DAVISデータセットの実験は、インタラクティブな画像セグメンテーションにおける我々の手法の最先端性能を実証している。
論文 参考訳(メタデータ) (2023-12-22T02:31:31Z) - MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner
for Open-World Semantic Segmentation [110.09800389100599]
セマンティックセグメンテーションのための新鮮で簡単な事前学習パラダイムであるMixReorgを提案する。
我々のアプローチは、パッチとテキストの対応を保ちながら、画像パッチを混合することで、きめ細かいパッチテキストペアデータを生成することである。
マスク学習者としてMixReorgを使用することで、従来のテキスト教師付きセマンティックセマンティックセマンティックモデルは、非常に一般化可能なピクセル・セマンティックアライメントを実現することができる。
論文 参考訳(メタデータ) (2023-08-09T09:35:16Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z) - Robust Cross-Modal Representation Learning with Progressive
Self-Distillation [7.676408770854477]
CLIPの視覚言語アプローチの学習目的は、Webハーベスト画像キャプションデータセットに見られるノイズの多い多対多対応を効果的に考慮していない。
本研究では、進行的な自己蒸留とソフトな画像テキストアライメントを用いて、雑音の多いデータから頑健な表現をより効率的に学習するクロスモーダルコントラスト学習に基づく新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-10T03:28:18Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。