論文の概要: Uniformity First: Uniformity-aware Test-time Adaptation of Vision-language Models against Image Corruption
- arxiv url: http://arxiv.org/abs/2505.12912v1
- Date: Mon, 19 May 2025 09:47:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.525337
- Title: Uniformity First: Uniformity-aware Test-time Adaptation of Vision-language Models against Image Corruption
- Title(参考訳): 均一性第一:一様性を考慮した視覚言語モデルの画像破壊に対するテスト時間適応
- Authors: Kazuki Adachi, Shin'ya Yamaguchi, Tomoki Hamagami,
- Abstract要約: ビジョン言語モデルは、トレーニングモデルと大きなギャップを持つデータセットに直面すると、依然として苦しむことが分かっています。
本稿では,センサ劣化に頑健なモデルを実現するために,情報バランスTTA (UnInfo) と呼ばれる新しい手法を提案する。
- 参考スコア(独自算出の注目度): 4.792851066169872
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained vision-language models such as contrastive language-image pre-training (CLIP) have demonstrated a remarkable generalizability, which has enabled a wide range of applications represented by zero-shot classification. However, vision-language models still suffer when they face datasets with large gaps from training ones, i.e., distribution shifts. We found that CLIP is especially vulnerable to sensor degradation, a type of realistic distribution shift caused by sensor conditions such as weather, light, or noise. Collecting a new dataset from a test distribution for fine-tuning highly costs since sensor degradation occurs unexpectedly and has a range of variety. Thus, we investigate test-time adaptation (TTA) of zero-shot classification, which enables on-the-fly adaptation to the test distribution with unlabeled test data. Existing TTA methods for CLIP mainly focus on modifying image and text embeddings or predictions to address distribution shifts. Although these methods can adapt to domain shifts, such as fine-grained labels spaces or different renditions in input images, they fail to adapt to distribution shifts caused by sensor degradation. We found that this is because image embeddings are "corrupted" in terms of uniformity, a measure related to the amount of information. To make models robust to sensor degradation, we propose a novel method called uniformity-aware information-balanced TTA (UnInfo). To address the corruption of image embeddings, we introduce uniformity-aware confidence maximization, information-aware loss balancing, and knowledge distillation from the exponential moving average (EMA) teacher. Through experiments, we demonstrate that our UnInfo improves accuracy under sensor degradation by retaining information in terms of uniformity.
- Abstract(参考訳): コントラッシブ言語画像事前学習(CLIP)のような事前学習された視覚言語モデルは、ゼロショット分類で表される広範囲のアプリケーションを可能にする顕著な一般化性を実証している。
しかしながら、ビジョン言語モデルは、トレーニングモデル、すなわち分散シフトとの大きなギャップを持つデータセットに直面すると、依然として苦しむ。
CLIPは特に,天気や光,騒音などのセンサ条件による現実的な分布変化であるセンサ劣化に対して脆弱であることがわかった。
センサ劣化が予期せず発生し、さまざまなバリエーションがあるため、テストディストリビューションから新しいデータセットを収集して、微調整のコストを高くする。
そこで、ゼロショット分類におけるテスト時間適応(TTA)について検討し、未ラベルテストデータによるテスト分布へのオンザフライ適応を可能にする。
CLIPの既存のTTAメソッドは主に、画像やテキストの埋め込みの変更や、分散シフトに対応するための予測に重点を置いている。
これらの手法は、細粒度ラベル空間や入力画像の異なる再帰といったドメインシフトに適応できるが、センサー劣化による分布シフトには適応できない。
これは画像の埋め込みが一様性(情報の量に関連する指標)の点で「崩壊」しているためである。
センサ劣化に頑健なモデルを構築するために,一様性を考慮した情報バランスTTA (UnInfo) という新しい手法を提案する。
画像埋め込みの劣化に対処するため,指数移動平均(EMA)教師による一様性認識の信頼性最大化,情報認識損失分散,知識蒸留を導入する。
実験により,UnInfoは情報の均一性を保ち,センサ劣化時の精度を向上することを示した。
関連論文リスト
- Crane: Context-Guided Prompt Learning and Attention Refinement for Zero-Shot Anomaly Detections [50.343419243749054]
異常検出(AD)は、通常のデータ分布から逸脱を識別する。
本稿では,視覚エンコーダから抽出した画像コンテキストに基づいて,テキストエンコーダのプロンプトを条件付ける手法を提案する。
提案手法は,14のデータセットにおいて,各メトリクスに対して2%から29%の性能向上を実現している。
論文 参考訳(メタデータ) (2025-04-15T10:42:25Z) - A Bias-Free Training Paradigm for More General AI-generated Image Detection [15.421102443599773]
良く設計された法医学的検知器は、データバイアスを反映するのではなく、生成物固有のアーティファクトを検出する必要がある。
本稿では,実画像から偽画像を生成する,バイアスのない学習パラダイムであるB-Freeを提案する。
我々は,最先端検出器の一般化とロバスト性の両方において有意な改善が認められた。
論文 参考訳(メタデータ) (2024-12-23T15:54:32Z) - Diffusion Model Driven Test-Time Image Adaptation for Robust Skin Lesion Classification [24.08402880603475]
テストデータ上でのモデルの精度を高めるためのテスト時間画像適応手法を提案する。
拡散モデルを用いて、対象の試験画像をソース領域に投影して修正する。
私たちの手法は、さまざまな汚職、アーキテクチャ、データレシエーションにおいて、堅牢性をより堅牢にします。
論文 参考訳(メタデータ) (2024-05-18T13:28:51Z) - Forgery-aware Adaptive Transformer for Generalizable Synthetic Image
Detection [106.39544368711427]
本研究では,様々な生成手法から偽画像を検出することを目的とした,一般化可能な合成画像検出の課題について検討する。
本稿では,FatFormerという新しいフォージェリー適応トランスフォーマー手法を提案する。
提案手法は, 平均98%の精度でGANを観測し, 95%の精度で拡散モデルを解析した。
論文 参考訳(メタデータ) (2023-12-27T17:36:32Z) - Masked Images Are Counterfactual Samples for Robust Fine-tuning [77.82348472169335]
微調整の深層学習モデルは、分布内(ID)性能と分布外(OOD)堅牢性の間のトレードオフにつながる可能性がある。
そこで本研究では,マスク付き画像を対物サンプルとして用いて,ファインチューニングモデルのロバスト性を向上させる新しいファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-03-06T11:51:28Z) - DDPM-CD: Denoising Diffusion Probabilistic Models as Feature Extractors
for Change Detection [31.125812018296127]
Deno Diffusion Probabilistic Model (DDPM) の事前学習による変化検出のための新しいアプローチを提案する。
DDPMは、訓練画像を徐々にマルコフ連鎖を用いてガウス分布に変換することにより、トレーニングデータ分布を学習する。
推論(サンプリング)中に、トレーニング分布に近い多様なサンプルセットを生成することができる。
LEVIR-CD, WHU-CD, DSIFN-CD, CDDデータセットを用いて行った実験により,提案手法は既存の変化検出法よりもF1スコアで大幅に優れており, I。
論文 参考訳(メタデータ) (2022-06-23T17:58:29Z) - Incorporating Semi-Supervised and Positive-Unlabeled Learning for
Boosting Full Reference Image Quality Assessment [73.61888777504377]
フル参照(FR)画像品質評価(IQA)は、その知覚的差異をプリズム品質基準で測定することにより、歪み画像の視覚的品質を評価する。
ラベルなしデータは、画像劣化または復元プロセスから容易に収集することができ、ラベルなしのトレーニングデータを利用してFR-IQA性能を高めることを奨励する。
本稿では, 半教師付き, 正の未ラベル学習(PU)を用いて, ラベルなしデータを活用し, オフレーヤの悪影響を軽減することを提案する。
論文 参考訳(メタデータ) (2022-04-19T09:10:06Z) - A Geometric Perspective towards Neural Calibration via Sensitivity
Decomposition [31.557715381838147]
視覚分類モデルがデータ分散シフトの際のキャリブレーションの低下に悩まされることはよく知られている。
本稿では,インスタンスに依存しない,インスタンスに依存しないコンポーネントに埋め込まれたサンプル特徴のノルムを分解する幾何学的感度分解(GSD)を提案する。
この分解に触発されて、我々は現在のソフトマックス線形モデルへの単純な拡張を解析的に導き、トレーニング中に2つのコンポーネントをアンタングルすることを学ぶ。
論文 参考訳(メタデータ) (2021-10-27T16:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。