論文の概要: Knowledge Regularized Negative Feature Tuning of Vision-Language Models for Out-of-Distribution Detection
- arxiv url: http://arxiv.org/abs/2507.19847v2
- Date: Tue, 29 Jul 2025 14:15:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 12:52:36.839379
- Title: Knowledge Regularized Negative Feature Tuning of Vision-Language Models for Out-of-Distribution Detection
- Title(参考訳): アウト・オブ・ディストリビューション検出のための視覚言語モデルの知識正規化負の特徴調整
- Authors: Wenjie Zhu, Yabin Zhang, Xin Jin, Wenjun Zeng, Lei Zhang,
- Abstract要約: 信頼性の高い機械学習モデルを構築するには、アウト・オブ・ディストリビューション(OOD)検出が不可欠である。
我々はKR-NFT(Knowledge Regularized Negative Feature Tuning)と呼ばれる新しい手法を提案する。
NFTは、事前訓練されたテキスト特徴に分布認識変換を適用し、正および負の特徴を異なる空間に効果的に分離する。
ImageNetデータセットから数発のサンプルをトレーニングすると、KR-NFTはID分類精度とOOD検出を改善するだけでなく、FPR95を5.44%削減する。
- 参考スコア(独自算出の注目度): 54.433899174017185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Out-of-distribution (OOD) detection is crucial for building reliable machine learning models. Although negative prompt tuning has enhanced the OOD detection capabilities of vision-language models, these tuned models often suffer from reduced generalization performance on unseen classes and styles. To address this challenge, we propose a novel method called Knowledge Regularized Negative Feature Tuning (KR-NFT), which integrates an innovative adaptation architecture termed Negative Feature Tuning (NFT) and a corresponding knowledge-regularization (KR) optimization strategy. Specifically, NFT applies distribution-aware transformations to pre-trained text features, effectively separating positive and negative features into distinct spaces. This separation maximizes the distinction between in-distribution (ID) and OOD images. Additionally, we introduce image-conditional learnable factors through a lightweight meta-network, enabling dynamic adaptation to individual images and mitigating sensitivity to class and style shifts. Compared to traditional negative prompt tuning, NFT demonstrates superior efficiency and scalability. To optimize this adaptation architecture, the KR optimization strategy is designed to enhance the discrimination between ID and OOD sets while mitigating pre-trained knowledge forgetting. This enhances OOD detection performance on trained ID classes while simultaneously improving OOD detection on unseen ID datasets. Notably, when trained with few-shot samples from ImageNet dataset, KR-NFT not only improves ID classification accuracy and OOD detection but also significantly reduces the FPR95 by 5.44\% under an unexplored generalization setting with unseen ID categories. Codes can be found at \href{https://github.com/ZhuWenjie98/KRNFT}.
- Abstract(参考訳): 信頼性の高い機械学習モデルを構築するには、アウト・オブ・ディストリビューション(OOD)検出が不可欠である。
負のプロンプトチューニングは、視覚言語モデルのOOD検出能力を向上させたが、これらのチューニングされたモデルは、目に見えないクラスやスタイルでの一般化性能の低下に悩まされることが多い。
この課題に対処するために,NFT(Negative Feature Tuning)と呼ばれる革新的な適応アーキテクチャとそれに対応する知識正規化(KR)最適化戦略を統合する,KR-NFT(Knowledge Regularized Negative Feature Tuning)と呼ばれる新しい手法を提案する。
具体的には、NFTは事前訓練されたテキスト特徴に分布認識変換を適用し、正と負の特徴を異なる空間に効果的に分離する。
この分離は、分布内画像(ID)とOOD画像の区別を最大化する。
さらに、軽量なメタネットワークを通じて画像条件学習可能な要素を導入し、個々の画像への動的適応を可能にし、クラスやスタイルシフトに対する感受性を緩和する。
従来の負のプロンプトチューニングと比較して、NFTは優れた効率とスケーラビリティを示している。
この適応アーキテクチャを最適化するために、KR最適化戦略は、事前学習した知識を忘れないようにしながら、IDとOODセットの識別を強化するように設計されている。
これにより、トレーニング済みIDクラスでのOOD検出性能が向上し、同時に見えないIDデータセットでのOOD検出が改善される。
特に、ImageNetデータセットからのわずかなサンプルでトレーニングすると、KR-NFTはID分類精度とOOD検出を改善するだけでなく、未知のIDカテゴリを持つ探索されていない一般化設定の下でFPR95を5.44倍に大幅に削減する。
コードは \href{https://github.com/ZhuWenjie98/KRNFT} で見ることができる。
関連論文リスト
- Self-Calibrated Tuning of Vision-Language Models for Out-of-Distribution Detection [24.557227100200215]
オープンソースアプリケーションに信頼性の高い機械学習モデルをデプロイするには、アウト・オブ・ディストリビューション(OOD)検出が不可欠である。
近年のCLIPによるOOD検出の進歩は,IDデータから抽出したOOD特徴に即時調整を施すことによって有望な結果を示した。
提案手法は,SCT(Self-Calibrated Tuning)と呼ばれる新しいフレームワークで,与えられた数ショットのIDデータのみを用いて効果的なOOD検出を行う。
論文 参考訳(メタデータ) (2024-11-05T02:29:16Z) - PseudoNeg-MAE: Self-Supervised Point Cloud Learning using Conditional Pseudo-Negative Embeddings [55.55445978692678]
PseudoNeg-MAEは、ポイントクラウドマスマスキングオートエンコーダのグローバルな特徴表現を強化する。
本研究では,ネットワークが識別的表現を保ちながら,よりリッチな変換キューをキャプチャできる新たな損失を提案する。
論文 参考訳(メタデータ) (2024-09-24T07:57:21Z) - CRoFT: Robust Fine-Tuning with Concurrent Optimization for OOD Generalization and Open-Set OOD Detection [42.33618249731874]
トレーニングデータにおけるエネルギースコアの最大化は、ドメイン一貫性のあるヘッセンの分類損失につながることを示す。
我々は,両タスクの同時最適化を可能にする統合された微調整フレームワークを開発した。
論文 参考訳(メタデータ) (2024-05-26T03:28:59Z) - Overcoming the Pitfalls of Vision-Language Model Finetuning for OOD Generalization [11.140366256534474]
既存の視覚言語モデルは、様々な視覚領域やタスクに対して強力な一般化を示す。
本稿では,OOD ゲネラリゼーションを改良するための新しいアプローチである OGEN を提案する。
具体的には、未知のクラスのクラス名のみを使用して、OOD機能を合成するために、クラス条件フィーチャジェネレータが導入された。
論文 参考訳(メタデータ) (2024-01-29T06:57:48Z) - Classifier-head Informed Feature Masking and Prototype-based Logit
Smoothing for Out-of-Distribution Detection [27.062465089674763]
ニューラルネットワークを現実世界にデプロイする際には、アウト・オブ・ディストリビューション(OOD)検出が不可欠である。
1つの大きな課題は、ニューラルネットワークがOODデータに対して過信的な予測をすることです。
本稿では,新しい特徴マスキング戦略と新しいロジット平滑化戦略に基づく,効果的なポストホックOOD検出手法を提案する。
論文 参考訳(メタデータ) (2023-10-27T12:42:17Z) - AUTO: Adaptive Outlier Optimization for Test-Time OOD Detection [79.51071170042972]
Out-of-Distribution (OOD) 検出は、任意のトレーニングインディストリビューション(ID)クラスに該当しないテストサンプルを検出することを目的としている。
データ安全性とプライバシにより、さまざまなシナリオに対して、事前にタスク固有の外れ値の収集が不可能になる。
テスト中にラベルのないデータストリームから実際のOODデータを利用することができる。
論文 参考訳(メタデータ) (2023-03-22T02:28:54Z) - Energy-based Out-of-Distribution Detection for Graph Neural Networks [76.0242218180483]
我々は,GNNSafeと呼ばれるグラフ上での学習のための,シンプルで強力で効率的なOOD検出モデルを提案する。
GNNSafeは、最先端技術に対するAUROCの改善を最大17.0%で達成しており、そのような未開発領域では単純だが強力なベースラインとして機能する可能性がある。
論文 参考訳(メタデータ) (2023-02-06T16:38:43Z) - No Shifted Augmentations (NSA): compact distributions for robust
self-supervised Anomaly Detection [4.243926243206826]
教師なし異常検出(AD)は正規化の概念を構築し、分布内(ID)と分布外(OOD)データを区別する必要がある。
我々は,ID特徴分布のエンフ幾何学的コンパクト性によって,外乱の分離や検出が容易になるかを検討する。
我々は,IDデータのコンパクトな分布を学習可能にする自己教師型特徴学習ステップに,新たなアーキテクチャ変更を提案する。
論文 参考訳(メタデータ) (2022-03-19T15:55:32Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。