論文の概要: Occlusion Robustness of CLIP for Military Vehicle Classification
- arxiv url: http://arxiv.org/abs/2508.20760v1
- Date: Thu, 28 Aug 2025 13:16:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.413868
- Title: Occlusion Robustness of CLIP for Military Vehicle Classification
- Title(参考訳): 軍用車両分類におけるCLIPの咬合ロバスト性
- Authors: Jan Erik van Woerden, Gertjan Burghouts, Lotte Nijskens, Alma M. Liezenga, Sabina van Rooij, Frank Ruis, Hugo J. Kuijf,
- Abstract要約: CLIPのような視覚言語モデル(VLM)は、画像とテキストを共有埋め込み空間にアライメントすることで、ゼロショット分類を可能にする。
軍用車両18クラスのカスタムデータセットを用いて,CLIP変異体の閉塞に対する堅牢性について検討した。
トランスフォーマーベースのCLIPモデルは、一貫してCNNを上回っています。
- 参考スコア(独自算出の注目度): 0.8110981870695059
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) like CLIP enable zero-shot classification by aligning images and text in a shared embedding space, offering advantages for defense applications with scarce labeled data. However, CLIP's robustness in challenging military environments, with partial occlusion and degraded signal-to-noise ratio (SNR), remains underexplored. We investigate CLIP variants' robustness to occlusion using a custom dataset of 18 military vehicle classes and evaluate using Normalized Area Under the Curve (NAUC) across occlusion percentages. Four key insights emerge: (1) Transformer-based CLIP models consistently outperform CNNs, (2) fine-grained, dispersed occlusions degrade performance more than larger contiguous occlusions, (3) despite improved accuracy, performance of linear-probed models sharply drops at around 35% occlusion, (4) by finetuning the model's backbone, this performance drop occurs at more than 60% occlusion. These results underscore the importance of occlusion-specific augmentations during training and the need for further exploration into patch-level sensitivity and architectural resilience for real-world deployment of CLIP.
- Abstract(参考訳): CLIPのような視覚言語モデル(VLM)は、画像とテキストを共有埋め込み空間にアライメントすることでゼロショット分類を可能にし、ラベル付きデータが少ないディフェンスアプリケーションにメリットを提供する。
しかし、CLIPの軍事的環境における堅牢性は、部分閉塞と劣化した信号-雑音比(SNR)とともに未解明のままである。
CLIP変異体は18種類の軍用車両のカスタムデータセットを用いて閉塞に対する頑健さを検証し、閉塞率で正規化領域(NAUC)を用いて評価した。
1) トランスフォーマーベースのCLIPモデルはCNNを一貫して上回り、(2) より微細で分散したオクルージョンは、より大きな連続したオクルージョンよりも性能を低下させ、(3) 精度が向上したにもかかわらず、線形プロブドモデルの性能はおよそ35%のオクルージョンで急落し、(4) モデルのバックボーンを微調整することで、このパフォーマンス低下は60%以上のオクルージョンで発生する。
これらの結果は、トレーニング中のオクルージョン固有の拡張の重要性と、CLIPの実際のデプロイにおけるパッチレベルの感度とアーキテクチャのレジリエンスのさらなる調査の必要性を浮き彫りにしている。
関連論文リスト
- Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception [71.26728044621458]
DeCLIPは、CLIPを強化する新しいフレームワークで、自己認識モジュールを分離して、それぞれコンテンツ’と“コンテキスト’の機能を取得する。
2D検出とセグメンテーション、3Dインスタンスのセグメンテーション、ビデオインスタンスのセグメンテーション、6Dオブジェクトのポーズ推定など、幅広いタスクにわたる最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2025-08-15T06:43:51Z) - LeakyCLIP: Extracting Training Data from CLIP [23.702455444224995]
textbfLeakyCLIPは、CLIP埋め込みから高品質でセマンティックに正確な画像再構成を実現することを目的としている。
CLIPのインバージョンでは,1)非破壊的特徴,2)テキスト埋め込みにおける視覚的セマンティクスの制限,3)再構築精度の低下,の3つの課題が指摘されている。
論文 参考訳(メタデータ) (2025-08-01T16:32:48Z) - Self-Supervised Contrastive Learning is Approximately Supervised Contrastive Learning [48.11265601808718]
標準的な自己指導型コントラスト学習目標が暗黙的に教師付き変種を近似することを示し,我々は負のみ教師付きコントラスト学習損失(NSCL)と呼ぶ。
ラベルに依存しない,アーキテクチャに依存しない境界の下で,意味クラスの数が増えるにつれて,CLとNSCLの損失のギャップが消滅することを証明する。
論文 参考訳(メタデータ) (2025-06-04T19:43:36Z) - Self-Calibrated CLIP for Training-Free Open-Vocabulary Segmentation [19.749490092520006]
Self-Calibrated CLIP (SC-CLIP) は、CLIPを校正してより微細な表現を生成する訓練不要の手法である。
SC-CLIPはバニラCLIP ViT-L/14の性能を6.8倍向上させる。
論文 参考訳(メタデータ) (2024-11-24T15:14:05Z) - Affinity-Graph-Guided Contractive Learning for Pretext-Free Medical Image Segmentation with Minimal Annotation [55.325956390997]
本稿では,医用画像セグメンテーションのための親和性グラフ誘導半教師付きコントラスト学習フレームワーク(Semi-AGCL)を提案する。
このフレームワークは、まず、ロバストな初期特徴空間を提供する平均パッチエントロピー駆動のパッチ間サンプリング法を設計する。
完全アノテーションセットの10%に過ぎず, 完全注釈付きベースラインの精度にアプローチし, 限界偏差は2.52%に過ぎなかった。
論文 参考訳(メタデータ) (2024-10-14T10:44:47Z) - Investigating the Semantic Robustness of CLIP-based Zero-Shot Anomaly Segmentation [2.722220619798093]
3つの意味変換を用いて実験データを摂動することで,ゼロショット異常セグメンテーションアルゴリズムの性能について検討する。
モデルアーキテクチャや学習目標に関係なく、3つのCLIPバックボーンでパフォーマンスが一貫して低下していることが分かりました。
論文 参考訳(メタデータ) (2024-05-13T17:47:08Z) - Latent Enhancing AutoEncoder for Occluded Image Classification [2.6217304977339473]
LEARN: Latent Enhancing feature Reconstruction Networkを紹介する。
オートエンコーダベースのネットワークで、頭の前に分類モデルに組み込むことができる。
OccludedPASCAL3D+データセットでは、提案されたLEARNが標準分類モデルより優れている。
論文 参考訳(メタデータ) (2024-02-10T12:22:31Z) - FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with Pre-trained Vision-Language Models [59.13757801286343]
クラス増分学習(class-incremental learning)は、モデルが限られたデータで漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。
本稿では,特徴空間の不整合のための冗長特徴除去器 (RFE) と,重要な雑音に対する空間ノイズ補償器 (SNC) の2つの新しいコンポーネントを備えたFILP-3Dフレームワークを紹介する。
論文 参考訳(メタデータ) (2023-12-28T14:52:07Z) - Getting More Juice Out of Your Data: Hard Pair Refinement Enhances Visual-Language Models Without Extra Data [122.282521548393]
コントラスト言語-画像事前学習 (CLIP) は, クロスモーダルな画像-テキスト表現学習の標準となっている。
HELIPは、CLIPモデルを改善するためのコスト効率のよい戦略であり、継続的なトレーニングにおいて既存のデータセット内の挑戦的なテキストイメージペアを利用することで、CLIPモデルを改善する。
論文 参考訳(メタデータ) (2023-05-09T07:00:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。