論文の概要: Cross-modal Proxy Evolving for OOD Detection with Vision-Language Models
- arxiv url: http://arxiv.org/abs/2601.08476v1
- Date: Tue, 13 Jan 2026 12:08:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.18333
- Title: Cross-modal Proxy Evolving for OOD Detection with Vision-Language Models
- Title(参考訳): 視覚言語モデルを用いたOOD検出のためのクロスモーダルプロキシ
- Authors: Hao Tang, Yu Liu, Shuanglin Yan, Fei Shen, Shengfeng He, Jing Qin,
- Abstract要約: CoEvoは、テキストプロキシとビジュアルプロキシの両方を双方向でサンプル条件で適応するテストタイムフレームワークである。
CoEvoは最先端のパフォーマンスを実現し、AUROCを1.33%改善し、ImageNet-1KではFPR95を45.98%削減した。
- 参考スコア(独自算出の注目度): 59.242742594156546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reliable zero-shot detection of out-of-distribution (OOD) inputs is critical for deploying vision-language models in open-world settings. However, the lack of labeled negatives in zero-shot OOD detection necessitates proxy signals that remain effective under distribution shift. Existing negative-label methods rely on a fixed set of textual proxies, which (i) sparsely sample the semantic space beyond in-distribution (ID) classes and (ii) remain static while only visual features drift, leading to cross-modal misalignment and unstable predictions. In this paper, we propose CoEvo, a training- and annotation-free test-time framework that performs bidirectional, sample-conditioned adaptation of both textual and visual proxies. Specifically, CoEvo introduces a proxy-aligned co-evolution mechanism to maintain two evolving proxy caches, which dynamically mines contextual textual negatives guided by test images and iteratively refines visual proxies, progressively realigning cross-modal similarities and enlarging local OOD margins. Finally, we dynamically re-weight the contributions of dual-modal proxies to obtain a calibrated OOD score that is robust to distribution shift. Extensive experiments on standard benchmarks demonstrate that CoEvo achieves state-of-the-art performance, improving AUROC by 1.33% and reducing FPR95 by 45.98% on ImageNet-1K compared to strong negative-label baselines.
- Abstract(参考訳): アウト・オブ・ディストリビューション(OOD)入力の信頼性の高いゼロショット検出は、オープンワールド設定でのビジョン言語モデルのデプロイに不可欠である。
しかし、ゼロショットOOD検出におけるラベル付き負の欠如は、分散シフトの下で有効であるプロキシ信号を必要とする。
既存の負ラベル法は、テキストプロキシの固定セットに依存している。
(i)分布内(ID)クラスを超えて意味空間を疎にサンプリングし、
(ii) 視覚的特徴のみを漂流させながら静止状態のままであり, 横方向の不一致や不安定な予測につながる。
本稿では,テキストと視覚の両方のプロキシを双方向かつサンプル条件で適応する,トレーニングおよびアノテーションのないテストタイムフレームワークであるCoEvoを提案する。
具体的には、CoEvoは2つの進化するプロキシキャッシュを維持するためのプロキシ整合型共進化機構を導入し、テストイメージによって導かれるコンテキスト的テキストネガティブを動的にマイニングし、視覚的プロキシを反復的に洗練し、段階的にクロスモーダルな類似性を実現し、ローカルなOODマージンを拡大する。
最後に、分布シフトに頑健な校正OODスコアを得るために、デュアルモーダルプロキシの寄与を動的に再重み付けする。
標準ベンチマークでの大規模な実験により、CoEvoは最先端のパフォーマンスを達成し、AUROCを1.33%改善し、ImageNet-1K上でFPR95を45.98%削減した。
関連論文リスト
- Enhancing CLIP Robustness via Cross-Modality Alignment [54.01929554563447]
視覚言語モデルのための最適なトランスポートベースフレームワークであるクロスモダリティアライメントを提案する。
COLAは、グローバルな画像テキストアライメントと特徴空間における局所的な構造的一貫性を復元する。
COLAはトレーニングフリーで、既存の微調整モデルと互換性がある。
論文 参考訳(メタデータ) (2025-10-28T03:47:44Z) - GOOD: Training-Free Guided Diffusion Sampling for Out-of-Distribution Detection [61.96025941146103]
GOODは,オフザシェルフ内分布(ID)分類器を用いて,OOD領域へのサンプリングトラジェクトリを誘導する新しいフレームワークである。
入力可能性を減らすためにログパーティションの勾配に基づいた画像レベルのガイダンスは、ピクセル空間内の低密度領域に向けてサンプルを駆動する。
我々は、画像と特徴の相違を適応的に組み合わせ、検出の堅牢性を向上する統一OODスコアを導入する。
論文 参考訳(メタデータ) (2025-10-20T03:58:46Z) - Knowledge Regularized Negative Feature Tuning of Vision-Language Models for Out-of-Distribution Detection [54.433899174017185]
信頼性の高い機械学習モデルを構築するには、アウト・オブ・ディストリビューション(OOD)検出が不可欠である。
我々はKR-NFT(Knowledge Regularized Negative Feature Tuning)と呼ばれる新しい手法を提案する。
NFTは、事前訓練されたテキスト特徴に分布認識変換を適用し、正および負の特徴を異なる空間に効果的に分離する。
ImageNetデータセットから数発のサンプルをトレーニングすると、KR-NFTはID分類精度とOOD検出を改善するだけでなく、FPR95を5.44%削減する。
論文 参考訳(メタデータ) (2025-07-26T07:44:04Z) - DisCoPatch: Taming Adversarially-driven Batch Statistics for Improved Out-of-Distribution Detection [11.332987462182713]
バッチ正規化 (BN) で訓練された敵判別器では、実検体と敵検体は独自のバッチ統計を持つ異なる領域を形成する。
本稿では,この機構を利用した教師なし適応変分自動エンコーダフレームワークであるDisCoPatchを紹介する。
DisCoPatchは、公開OOD検出ベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-01-14T10:49:26Z) - AdaNeg: Adaptive Negative Proxy Guided OOD Detection with Vision-Language Models [15.754054667010468]
事前学習された視覚言語モデルは、負のラベルをガイダンスとして使用することにより、配布外サンプル(OOD)を特定するのに効果的である。
我々は,実際のOOD画像の探索により,テスト中に動的に生成されるテクスタダプティブな負のプロキシを提案する。
AUROCは2.45%増加し,FPR95は6.48%低下した。
論文 参考訳(メタデータ) (2024-10-26T11:20:02Z) - Higher Performance Visual Tracking with Dual-Modal Localization [106.91097443275035]
Visual Object Tracking (VOT)は、堅牢性と正確性の両方に同期性を必要とする。
ONRによるロバストなローカリゼーション抑制器とOFCによるターゲットセンターへの正確なローカリゼーションにより、ターゲットローカリゼーションのためのデュアルモーダルフレームワークを提案します。
論文 参考訳(メタデータ) (2021-03-18T08:47:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。