Fugu-MT 論文翻訳(概要): ProtoDCS: Towards Robust and Efficient Open-Set Test-Time Adaptation for Vision-Language Models

論文の概要: ProtoDCS: Towards Robust and Efficient Open-Set Test-Time Adaptation for Vision-Language Models

arxiv url: http://arxiv.org/abs/2602.23653v1
Date: Fri, 27 Feb 2026 03:39:02 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-02 19:48:24.236851
Title: ProtoDCS: Towards Robust and Efficient Open-Set Test-Time Adaptation for Vision-Language Models
Title（参考訳）: ProtoDCS:視覚言語モデルに対するロバストかつ効率的なオープンセットテスト時間適応を目指して
Authors: Wei Luo, Yangfan Ou, Jin Deng, Zeshuai Deng, Xiquan Yan, Zhiquan Wen, Mingkui Tan,
Abstract要約: Prototype-based Double-Check separation (ProtoDCS)はOSTTAの堅牢なフレームワークである。 csIDとcsOODを分離し、ビジョン言語モデルのcsIDデータへの安全かつ効率的な適応を可能にする。 ProtoDCSは、既知のクラス精度とOOD検出メトリクスの両方を大幅に向上させる。
参考スコア（独自算出の注目度）: 32.840734752367275
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large-scale Vision-Language Models (VLMs) exhibit strong zero-shot recognition, yet their real-world deployment is challenged by distribution shifts. While Test-Time Adaptation (TTA) can mitigate this, existing VLM-based TTA methods operate under a closed-set assumption, failing in open-set scenarios where test streams contain both covariate-shifted in-distribution (csID) and out-of-distribution (csOOD) data. This leads to a critical difficulty: the model must discriminate unknown csOOD samples to avoid interference while simultaneously adapting to known csID classes for accuracy. Current open-set TTA (OSTTA) methods rely on hard thresholds for separation and entropy minimization for adaptation. These strategies are brittle, often misclassifying ambiguous csOOD samples and inducing overconfident predictions, and their parameter-update mechanism is computationally prohibitive for VLMs. To address these limitations, we propose Prototype-based Double-Check Separation (ProtoDCS), a robust framework for OSTTA that effectively separates csID and csOOD samples, enabling safe and efficient adaptation of VLMs to csID data. Our main contributions are: (1) a novel double-check separation mechanism employing probabilistic Gaussian Mixture Model (GMM) verification to replace brittle thresholding; and (2) an evidence-driven adaptation strategy utilizing uncertainty-aware loss and efficient prototype-level updates, mitigating overconfidence and reducing computational overhead. Extensive experiments on CIFAR-10/100-C and Tiny-ImageNet-C demonstrate that ProtoDCS achieves state-of-the-art performance, significantly boosting both known-class accuracy and OOD detection metrics. Code will be available at https://github.com/O-YangF/ProtoDCS.
Abstract（参考訳）: 大規模ビジョンランゲージモデル(VLM)は強力なゼロショット認識を示すが、実際の展開は分散シフトによって困難である。 TTA(Test-Time Adaptation)がこれを緩和する一方で、既存のVLMベースのTTAメソッドはクローズドセットの仮定の下で動作し、テストストリームが共分散(covariate-shifted in-distribution)(csID)データとout-of-distribution(csOOD)データの両方を含むオープンセットのシナリオでは失敗する。モデルは、干渉を避けるために未知のcsOODサンプルを識別し、同時に既知のcsIDクラスに正確に適応する必要がある。現在のオープンセットTTA(OSTTA)法は、適応のための分離とエントロピー最小化のためにハードしきい値に依存している。これらの戦略は脆く、しばしば不明瞭なcsOODサンプルを誤分類し、過信予測を誘導し、それらのパラメータ更新機構はVLMに対して計算的に禁止される。これらの制約に対処するため,OSTTAの堅牢なフレームワークであるPrototype-based Double-Check separation (ProtoDCS)を提案する。主な貢献は,(1)不安定な閾値付けを代替する確率的ガウス混合モデル(GMM)検証を用いた新しい二重チェック分離機構,(2)不確実性認識の損失と効率的なプロトタイプレベルの更新を利用したエビデンス駆動適応戦略,そして過信の軽減と計算オーバーヘッドの低減である。 CIFAR-10/100-CとTiny-ImageNet-Cの大規模な実験は、ProtoDCSが最先端のパフォーマンスを実現し、既知のクラス精度とOOD検出メトリクスの両方を大幅に向上させることを示した。コードはhttps://github.com/O-YangF/ProtoDCS.comで入手できる。

関連論文リスト

Cross-modal Proxy Evolving for OOD Detection with Vision-Language Models [59.242742594156546]
CoEvoは、テキストプロキシとビジュアルプロキシの両方を双方向でサンプル条件で適応するテストタイムフレームワークである。 CoEvoは最先端のパフォーマンスを実現し、AUROCを1.33%改善し、ImageNet-1KではFPR95を45.98%削減した。
論文参考訳（メタデータ） (2026-01-13T12:08:26Z)
Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文参考訳（メタデータ） (2025-12-02T14:42:54Z)
Scalable, Explainable and Provably Robust Anomaly Detection with One-Step Flow Matching [14.503330877000758]
Time-Conditioned Contraction Matching is a novel method for semi-supervised anomaly detection in tabular data。これは、確率分布間の速度場を学習する最近の生成モデリングフレームワークであるフローマッチングにインスパイアされている。 ADBenchベンチマークの大規模な実験により、TCCMは検出精度と推論コストのバランスが良好であることが示されている。
論文参考訳（メタデータ） (2025-10-21T06:26:38Z)
Bayesian Test-time Adaptation for Object Recognition and Detection with Vision-language Models [86.53246292425699]
我々は、オブジェクト認識と検出の両方のためのTTAのためのトレーニングフリーフレームワークであるBCA+を提案する。我々はベイズ推論問題として適応を定式化し、キャッシュベースの予測で初期VLM出力を融合することで最終的な予測を生成する。 BCA+は、認識と検出のベンチマークの両方で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-10-03T06:27:33Z)
Knowledge Regularized Negative Feature Tuning of Vision-Language Models for Out-of-Distribution Detection [54.433899174017185]
信頼性の高い機械学習モデルを構築するには、アウト・オブ・ディストリビューション(OOD)検出が不可欠である。我々はKR-NFT(Knowledge Regularized Negative Feature Tuning)と呼ばれる新しい手法を提案する。 NFTは、事前訓練されたテキスト特徴に分布認識変換を適用し、正および負の特徴を異なる空間に効果的に分離する。 ImageNetデータセットから数発のサンプルをトレーニングすると、KR-NFTはID分類精度とOOD検出を改善するだけでなく、FPR95を5.44%削減する。
論文参考訳（メタデータ） (2025-07-26T07:44:04Z)
Advancing Reliable Test-Time Adaptation of Vision-Language Models under Visual Variations [67.35596444651037]
視覚言語モデル(VLM)は、素晴らしいゼロショット機能を示すが、ラベル付きデータが利用できない場合、下流タスクの分散シフトに苦慮する。本稿では,信頼性を両面から高めるReliable Test-Time Adaptation (ReTA)法を提案する。
論文参考訳（メタデータ） (2025-07-13T05:37:33Z)
Mitigating Cache Noise in Test-Time Adaptation for Large Vision-Language Models [13.157596316463621]
下流タスクにおける分散シフトに起因する性能劣化に対する解決策として,視覚言語モデルのテスト時適応(TTA)が注目されている。我々は、包括的で信頼性の高いキャッシュ機構を導入し、キャッシュ、残留、ガウス(CRG)と呼ばれる新しいゼロショットTTA手法を提案する。 13のベンチマーク実験の結果、CRGは最先端のTTA法よりも優れており、例外的な堅牢性と適応性を示している。
論文参考訳（メタデータ） (2025-03-24T04:32:35Z)
Benchmarking Vision Foundation Models for Input Monitoring in Autonomous Driving [7.064497253920508]
特徴抽出器および密度モデリング技術としてのビジョンファウンデーションモデル(VFM)を提案する。最先端のバイナリOOD分類法と比較すると、密度推定によるVFM埋め込みはOOD入力の同定において既存の手法よりも優れていることが分かる。提案手法は,ダウンストリームタスクにおけるエラーの原因となる可能性のある高リスク入力を検出し,全体的な性能を向上させる。
論文参考訳（メタデータ） (2025-01-14T12:51:34Z)
DOTA: Distributional Test-Time Adaptation of Vision-Language Models [69.41389326333771]
トレーニングデータとテストデータの間に大きな分散ギャップが存在する場合、視覚言語の基礎モデルは信頼できない。本稿では,DOTA(DistributiOnal Test-time Adaptation)を提案する。この分散中心のアプローチは、モデルが継続的に学習し、デプロイメント環境に適応することを可能にする。
論文参考訳（メタデータ） (2024-09-28T15:03:28Z)
Unified Entropy Optimization for Open-Set Test-Time Adaptation [40.111891407629]
テスト時間適応(TTA)は、ラベル付きソースドメインで事前訓練されたモデルをラベルなしターゲットドメインに適応することを目的としている。多くの最先端のクローズドセットTTAメソッドは、オープンセットのシナリオに適用した場合、性能が良くない。統一エントロピー最適化(UniEnt)と呼ばれるシンプルだが効果的なフレームワークを提案する。
論文参考訳（メタデータ） (2024-04-09T07:08:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。