論文の概要: PViT: Prior-augmented Vision Transformer for Out-of-distribution Detection
- arxiv url: http://arxiv.org/abs/2410.20631v2
- Date: Mon, 13 Jan 2025 23:45:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 13:25:13.069734
- Title: PViT: Prior-augmented Vision Transformer for Out-of-distribution Detection
- Title(参考訳): PViT:アウト・オブ・ディストリビューション検出のための前処理型視覚変換器
- Authors: Tianhao Zhang, Zhixiang Chen, Lyudmila S. Mihaylova,
- Abstract要約: 我々は、画像出力(OOD)検出のためのViTモデルの堅牢性を高めるために、PViT(Predior-augmented Vision Transformer)を導入する。
PViTは、提案した先導信頼度を利用して、IDとOOD間の決定境界を形成する。
PViTは、既存のSOTA OOD検出法よりもFPR95とAUROCで優れている。
- 参考スコア(独自算出の注目度): 10.724906455759854
- License:
- Abstract: Vision Transformers (ViTs) have achieved remarkable success over various vision tasks, yet their robustness against data distribution shifts and inherent inductive biases remain underexplored. To enhance the robustness of ViT models for image Out-of-Distribution (OOD) detection, we introduce a novel and generic framework named Prior-augmented Vision Transformer (PViT). Taking as input the prior class logits from a pretrained model, we train PViT to predict the class logits. During inference, PViT identifies OOD samples by quantifying the divergence between the predicted class logits and the prior logits obtained from pre-trained models. Unlike existing state-of-the-art(SOTA) OOD detection methods, PViT shapes the decision boundary between ID and OOD by utilizing the proposed prior guided confidence, without requiring additional data modeling, generation methods, or structural modifications. Extensive experiments on the large-scale ImageNet benchmark, evaluated against over seven OOD datasets, demonstrate that PViT significantly outperforms existing SOTA OOD detection methods in terms of FPR95 and AUROC. The codebase is publicly available at https://github.com/RanchoGoose/PViT.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)は、様々なビジョンタスクにおいて顕著な成功を収めてきたが、データ分散シフトに対する頑健さと固有の帰納バイアスは、まだ未発見のままである。
画像出力(OOD)検出のためのViTモデルのロバスト性を高めるために,PViT(Presideed-augmented Vision Transformer)という新しい汎用フレームワークを導入する。
事前訓練されたモデルから事前クラスログを入力として、クラスログを予測するためにPViTをトレーニングします。
推論中、PViTは予測されたクラスロジットと事前訓練されたモデルから得られた前のロジットとのばらつきを定量化し、OODサンプルを識別する。
既存のSOTA(State-of-the-art(SOTA) OOD検出方法とは異なり、PViTは、データモデリング、生成方法、構造変更を必要とせず、提案した事前指導された信頼度を利用してIDとOOD間の決定境界を形成する。
7つのOODデータセットに対して評価された大規模ImageNetベンチマークの大規模な実験により、PViTはFPR95とAUROCの点で既存のSOTA OOD検出方法よりも大幅に優れていることが示された。
コードベースはhttps://github.com/RanchoGoose/PViT.comで公開されている。
関連論文リスト
- Can OOD Object Detectors Learn from Foundation Models? [56.03404530594071]
アウト・オブ・ディストリビューション(OOD)オブジェクト検出は、オープンセットのOODデータがないため、難しい課題である。
テキストから画像への生成モデルの最近の進歩に触発されて,大規模オープンセットデータを用いて訓練された生成モデルがOODサンプルを合成する可能性について検討した。
SyncOODは,大規模基盤モデルの能力を活用するシンプルなデータキュレーション手法である。
論文 参考訳(メタデータ) (2024-09-08T17:28:22Z) - Situation Monitor: Diversity-Driven Zero-Shot Out-of-Distribution Detection using Budding Ensemble Architecture for Object Detection [5.706574483483306]
コンディションモニターは、トランスフォーマーに基づくオブジェクト検出モデルのための新しいゼロショットアウトオブディストリビューション(OOD)検出手法である。
自律運転のような安全クリティカルな機械学習アプリケーションの信頼性を高める。
論文 参考訳(メタデータ) (2024-06-05T12:20:36Z) - Benchmarking and Improving Bird's Eye View Perception Robustness in Autonomous Driving [55.93813178692077]
本稿では,BEVアルゴリズムのレジリエンスを評価するためのベンチマークスイートであるRoboBEVを紹介する。
検出,マップセグメンテーション,深さ推定,占有予測といったタスクにまたがる33の最先端のBEVベースの知覚モデルを評価する。
また, 事前学習や深度自由なBEVトランスフォーメーションなどの戦略が, アウト・オブ・ディストリビューションデータに対するロバスト性を高める上で有効であることを示す。
論文 参考訳(メタデータ) (2024-05-27T17:59:39Z) - Mitigating Overconfidence in Out-of-Distribution Detection by Capturing Extreme Activations [1.8531577178922987]
Overconfidence"は特定のニューラルネットワークアーキテクチャの本質的な性質であり、OOD検出の低さにつながる。
ニューラルネットワークの最後層における極端なアクティベーション値を計測し、この過信のプロキシを利用して、複数のOOD検出ベースラインを改善する。
基準値と比較すると,OOD検出は2桁に増加し,精度が向上することが多い。
論文 参考訳(メタデータ) (2024-05-21T10:14:50Z) - Towards Few-shot Out-of-Distribution Detection [6.297489935041838]
アウト・オブ・ディストリビューション(OOD)検出は、オープンワールドのインテリジェントシステムの信頼性を確保するために重要である。
本研究は, トレーニングサンプルの不足により, 有意な性能低下が認められた。
我々はこのギャップに対処するために慎重に構築された新しい数発のOOD検出ベンチマークを導入する。
論文 参考訳(メタデータ) (2023-11-20T03:51:58Z) - Combining pre-trained Vision Transformers and CIDER for Out Of Domain
Detection [0.774971301405295]
ほとんどの産業用パイプラインは、CNNやVision Transformersのような下流タスクのための事前訓練されたモデルに依存している。
本稿では,ドメイン外検出におけるモデルの性能について検討する。
論文 参考訳(メタデータ) (2023-09-06T14:41:55Z) - Do-GOOD: Towards Distribution Shift Evaluation for Pre-Trained Visual
Document Understanding Models [68.12229916000584]
本研究では,文書画像関連タスクの微粒化解析のためのDO-GOOD(Out-of-distriion)ベンチマークを開発した。
次に、ロバスト性を評価し、5つの最新のVDU事前学習モデルと2つの典型的なOOD一般化アルゴリズムのきめ細かい解析を行う。
論文 参考訳(メタデータ) (2023-06-05T06:50:42Z) - Optimizing Relevance Maps of Vision Transformers Improves Robustness [91.61353418331244]
視覚的分類モデルは、しばしば画像背景に依存し、前景を無視し、分布の変化に対する頑丈さを損なうことが観察されている。
本稿では,モデルが前景オブジェクトに注目するように,モデルの関連性信号を監視して操作することを提案する。
これは、画像とそれに関連する前景マスクからなる比較的少数のサンプルを含む、微調整のステップとして行われる。
論文 参考訳(メタデータ) (2022-06-02T17:24:48Z) - Learning Generative Vision Transformer with Energy-Based Latent Space
for Saliency Prediction [51.80191416661064]
本稿では,有意な物体検出に先立って,潜伏変数を持つ新しい視覚変換器を提案する。
ビジョントランスネットワークとエネルギーベース先行モデルの両方は、マルコフ連鎖モンテカルロによる最大推定を通じて共同で訓練される。
生成型視覚変換器により、画像から容易に画素単位の不確実性マップを得ることができ、画像から唾液濃度を予測するためのモデル信頼度を示す。
論文 参考訳(メタデータ) (2021-12-27T06:04:33Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。