論文の概要: PViT: Prior-augmented Vision Transformer for Out-of-distribution Detection
- arxiv url: http://arxiv.org/abs/2410.20631v1
- Date: Sun, 27 Oct 2024 23:29:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:22:34.839773
- Title: PViT: Prior-augmented Vision Transformer for Out-of-distribution Detection
- Title(参考訳): PViT:アウト・オブ・ディストリビューション検出のための前処理型視覚変換器
- Authors: Tianhao Zhang, Zhixiang Chen, Lyudmila S. Mihaylova,
- Abstract要約: 我々は、画像出力(OOD)検出のためのViTモデルの堅牢性を高めるために、PViT(Predior-augmented Vision Transformer)を導入する。
PViTは、予測されたクラスロジットと事前訓練されたモデルから得られた前のロジットとのばらつきを定量化することにより、OODサンプルを識別する。
大規模なImageNetベンチマークの実験では、PViTは既存の最先端のOOD検出方法よりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 10.724906455759854
- License:
- Abstract: Vision Transformers (ViTs) have achieved remarkable success over various vision tasks, yet their robustness against data distribution shifts and inherent inductive biases remain underexplored. To enhance the robustness of ViT models for image Out-of-Distribution (OOD) detection, we introduce a novel and generic framework named Prior-augmented Vision Transformer (PViT). PViT identifies OOD samples by quantifying the divergence between the predicted class logits and the prior logits obtained from pre-trained models. Unlike existing state-of-the-art OOD detection methods, PViT shapes the decision boundary between ID and OOD by utilizing the proposed prior guide confidence, without requiring additional data modeling, generation methods, or structural modifications. Extensive experiments on the large-scale ImageNet benchmark demonstrate that PViT significantly outperforms existing state-of-the-art OOD detection methods. Additionally, through comprehensive analyses, ablation studies, and discussions, we show how PViT can strategically address specific challenges in managing large vision models, paving the way for new advancements in OOD detection.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)は、様々なビジョンタスクにおいて顕著な成功を収めてきたが、データ分散シフトに対する頑健さと固有の帰納バイアスは、まだ未発見のままである。
画像出力(OOD)検出のためのViTモデルのロバスト性を高めるために,PViT(Presideed-augmented Vision Transformer)という新しい汎用フレームワークを導入する。
PViTは、予測されたクラスロジットと事前訓練されたモデルから得られた前のロジットとのばらつきを定量化することにより、OODサンプルを識別する。
既存の最先端のOOD検出方法とは異なり、PViTは、追加のデータモデリング、生成方法、構造変更を必要とせず、提案した事前ガイド信頼を利用してIDとOOD間の決定境界を形作る。
大規模なImageNetベンチマークによる大規模な実験により、PViTは既存の最先端のOOD検出方法よりも大幅に優れていることが示された。
さらに、包括的分析、アブレーション研究、議論を通じて、PViTが大規模視覚モデル管理における特定の課題に戦略的に対処し、OOD検出における新たな進歩の道を開く方法を示す。
関連論文リスト
- Can OOD Object Detectors Learn from Foundation Models? [56.03404530594071]
アウト・オブ・ディストリビューション(OOD)オブジェクト検出は、オープンセットのOODデータがないため、難しい課題である。
テキストから画像への生成モデルの最近の進歩に触発されて,大規模オープンセットデータを用いて訓練された生成モデルがOODサンプルを合成する可能性について検討した。
SyncOODは,大規模基盤モデルの能力を活用するシンプルなデータキュレーション手法である。
論文 参考訳(メタデータ) (2024-09-08T17:28:22Z) - Situation Monitor: Diversity-Driven Zero-Shot Out-of-Distribution Detection using Budding Ensemble Architecture for Object Detection [5.706574483483306]
コンディションモニターは、トランスフォーマーに基づくオブジェクト検出モデルのための新しいゼロショットアウトオブディストリビューション(OOD)検出手法である。
自律運転のような安全クリティカルな機械学習アプリケーションの信頼性を高める。
論文 参考訳(メタデータ) (2024-06-05T12:20:36Z) - Benchmarking and Improving Bird's Eye View Perception Robustness in Autonomous Driving [55.93813178692077]
本稿では,BEVアルゴリズムのレジリエンスを評価するためのベンチマークスイートであるRoboBEVを紹介する。
検出,マップセグメンテーション,深さ推定,占有予測といったタスクにまたがる33の最先端のBEVベースの知覚モデルを評価する。
また, 事前学習や深度自由なBEVトランスフォーメーションなどの戦略が, アウト・オブ・ディストリビューションデータに対するロバスト性を高める上で有効であることを示す。
論文 参考訳(メタデータ) (2024-05-27T17:59:39Z) - Mitigating Overconfidence in Out-of-Distribution Detection by Capturing Extreme Activations [1.8531577178922987]
Overconfidence"は特定のニューラルネットワークアーキテクチャの本質的な性質であり、OOD検出の低さにつながる。
ニューラルネットワークの最後層における極端なアクティベーション値を計測し、この過信のプロキシを利用して、複数のOOD検出ベースラインを改善する。
基準値と比較すると,OOD検出は2桁に増加し,精度が向上することが多い。
論文 参考訳(メタデータ) (2024-05-21T10:14:50Z) - Towards Few-shot Out-of-Distribution Detection [6.297489935041838]
アウト・オブ・ディストリビューション(OOD)検出は、オープンワールドのインテリジェントシステムの信頼性を確保するために重要である。
本研究は, トレーニングサンプルの不足により, 有意な性能低下が認められた。
我々はこのギャップに対処するために慎重に構築された新しい数発のOOD検出ベンチマークを導入する。
論文 参考訳(メタデータ) (2023-11-20T03:51:58Z) - Combining pre-trained Vision Transformers and CIDER for Out Of Domain
Detection [0.774971301405295]
ほとんどの産業用パイプラインは、CNNやVision Transformersのような下流タスクのための事前訓練されたモデルに依存している。
本稿では,ドメイン外検出におけるモデルの性能について検討する。
論文 参考訳(メタデータ) (2023-09-06T14:41:55Z) - Do-GOOD: Towards Distribution Shift Evaluation for Pre-Trained Visual
Document Understanding Models [68.12229916000584]
本研究では,文書画像関連タスクの微粒化解析のためのDO-GOOD(Out-of-distriion)ベンチマークを開発した。
次に、ロバスト性を評価し、5つの最新のVDU事前学習モデルと2つの典型的なOOD一般化アルゴリズムのきめ細かい解析を行う。
論文 参考訳(メタデータ) (2023-06-05T06:50:42Z) - Optimizing Relevance Maps of Vision Transformers Improves Robustness [91.61353418331244]
視覚的分類モデルは、しばしば画像背景に依存し、前景を無視し、分布の変化に対する頑丈さを損なうことが観察されている。
本稿では,モデルが前景オブジェクトに注目するように,モデルの関連性信号を監視して操作することを提案する。
これは、画像とそれに関連する前景マスクからなる比較的少数のサンプルを含む、微調整のステップとして行われる。
論文 参考訳(メタデータ) (2022-06-02T17:24:48Z) - Learning Generative Vision Transformer with Energy-Based Latent Space
for Saliency Prediction [51.80191416661064]
本稿では,有意な物体検出に先立って,潜伏変数を持つ新しい視覚変換器を提案する。
ビジョントランスネットワークとエネルギーベース先行モデルの両方は、マルコフ連鎖モンテカルロによる最大推定を通じて共同で訓練される。
生成型視覚変換器により、画像から容易に画素単位の不確実性マップを得ることができ、画像から唾液濃度を予測するためのモデル信頼度を示す。
論文 参考訳(メタデータ) (2021-12-27T06:04:33Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。