論文の概要: PViT: Prior-augmented Vision Transformer for Out-of-distribution Detection
- arxiv url: http://arxiv.org/abs/2410.20631v1
- Date: Sun, 27 Oct 2024 23:29:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:22:34.839773
- Title: PViT: Prior-augmented Vision Transformer for Out-of-distribution Detection
- Title(参考訳): PViT:アウト・オブ・ディストリビューション検出のための前処理型視覚変換器
- Authors: Tianhao Zhang, Zhixiang Chen, Lyudmila S. Mihaylova,
- Abstract要約: 我々は、画像出力(OOD)検出のためのViTモデルの堅牢性を高めるために、PViT(Predior-augmented Vision Transformer)を導入する。
PViTは、予測されたクラスロジットと事前訓練されたモデルから得られた前のロジットとのばらつきを定量化することにより、OODサンプルを識別する。
大規模なImageNetベンチマークの実験では、PViTは既存の最先端のOOD検出方法よりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 10.724906455759854
- License:
- Abstract: Vision Transformers (ViTs) have achieved remarkable success over various vision tasks, yet their robustness against data distribution shifts and inherent inductive biases remain underexplored. To enhance the robustness of ViT models for image Out-of-Distribution (OOD) detection, we introduce a novel and generic framework named Prior-augmented Vision Transformer (PViT). PViT identifies OOD samples by quantifying the divergence between the predicted class logits and the prior logits obtained from pre-trained models. Unlike existing state-of-the-art OOD detection methods, PViT shapes the decision boundary between ID and OOD by utilizing the proposed prior guide confidence, without requiring additional data modeling, generation methods, or structural modifications. Extensive experiments on the large-scale ImageNet benchmark demonstrate that PViT significantly outperforms existing state-of-the-art OOD detection methods. Additionally, through comprehensive analyses, ablation studies, and discussions, we show how PViT can strategically address specific challenges in managing large vision models, paving the way for new advancements in OOD detection.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)は、様々なビジョンタスクにおいて顕著な成功を収めてきたが、データ分散シフトに対する頑健さと固有の帰納バイアスは、まだ未発見のままである。
画像出力(OOD)検出のためのViTモデルのロバスト性を高めるために,PViT(Presideed-augmented Vision Transformer)という新しい汎用フレームワークを導入する。
PViTは、予測されたクラスロジットと事前訓練されたモデルから得られた前のロジットとのばらつきを定量化することにより、OODサンプルを識別する。
既存の最先端のOOD検出方法とは異なり、PViTは、追加のデータモデリング、生成方法、構造変更を必要とせず、提案した事前ガイド信頼を利用してIDとOOD間の決定境界を形作る。
大規模なImageNetベンチマークによる大規模な実験により、PViTは既存の最先端のOOD検出方法よりも大幅に優れていることが示された。
さらに、包括的分析、アブレーション研究、議論を通じて、PViTが大規模視覚モデル管理における特定の課題に戦略的に対処し、OOD検出における新たな進歩の道を開く方法を示す。
関連論文リスト
- Can OOD Object Detectors Learn from Foundation Models? [56.03404530594071]
アウト・オブ・ディストリビューション(OOD)オブジェクト検出は、オープンセットのOODデータがないため、難しい課題である。
テキストから画像への生成モデルの最近の進歩に触発されて,大規模オープンセットデータを用いて訓練された生成モデルがOODサンプルを合成する可能性について検討した。
SyncOODは,大規模基盤モデルの能力を活用するシンプルなデータキュレーション手法である。
論文 参考訳(メタデータ) (2024-09-08T17:28:22Z) - Mitigating Overconfidence in Out-of-Distribution Detection by Capturing Extreme Activations [1.8531577178922987]
Overconfidence"は特定のニューラルネットワークアーキテクチャの本質的な性質であり、OOD検出の低さにつながる。
ニューラルネットワークの最後層における極端なアクティベーション値を計測し、この過信のプロキシを利用して、複数のOOD検出ベースラインを改善する。
基準値と比較すると,OOD検出は2桁に増加し,精度が向上することが多い。
論文 参考訳(メタデータ) (2024-05-21T10:14:50Z) - Generalized Face Forgery Detection via Adaptive Learning for Pre-trained Vision Transformer [54.32283739486781]
適応学習パラダイムの下で,textbfForgery-aware textbfAdaptive textbfVision textbfTransformer(FA-ViT)を提案する。
FA-ViTは、クロスデータセット評価において、Celeb-DFおよびDFDCデータセット上で93.83%と78.32%のAUCスコアを達成する。
論文 参考訳(メタデータ) (2023-09-20T06:51:11Z) - Combining pre-trained Vision Transformers and CIDER for Out Of Domain
Detection [0.774971301405295]
ほとんどの産業用パイプラインは、CNNやVision Transformersのような下流タスクのための事前訓練されたモデルに依存している。
本稿では,ドメイン外検出におけるモデルの性能について検討する。
論文 参考訳(メタデータ) (2023-09-06T14:41:55Z) - Do-GOOD: Towards Distribution Shift Evaluation for Pre-Trained Visual
Document Understanding Models [68.12229916000584]
本研究では,文書画像関連タスクの微粒化解析のためのDO-GOOD(Out-of-distriion)ベンチマークを開発した。
次に、ロバスト性を評価し、5つの最新のVDU事前学習モデルと2つの典型的なOOD一般化アルゴリズムのきめ細かい解析を行う。
論文 参考訳(メタデータ) (2023-06-05T06:50:42Z) - Masked Images Are Counterfactual Samples for Robust Fine-tuning [77.82348472169335]
微調整の深層学習モデルは、分布内(ID)性能と分布外(OOD)堅牢性の間のトレードオフにつながる可能性がある。
そこで本研究では,マスク付き画像を対物サンプルとして用いて,ファインチューニングモデルのロバスト性を向上させる新しいファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-03-06T11:51:28Z) - Energy-based Out-of-Distribution Detection for Graph Neural Networks [76.0242218180483]
我々は,GNNSafeと呼ばれるグラフ上での学習のための,シンプルで強力で効率的なOOD検出モデルを提案する。
GNNSafeは、最先端技術に対するAUROCの改善を最大17.0%で達成しており、そのような未開発領域では単純だが強力なベースラインとして機能する可能性がある。
論文 参考訳(メタデータ) (2023-02-06T16:38:43Z) - How Useful are Gradients for OOD Detection Really? [5.459639971144757]
Out of Distribution(OOD)検出は、リアルタイムアプリケーションに高性能な機械学習モデルをデプロイする上で重要な課題である。
OOD検出のための勾配法を詳細に解析し,比較する。
本稿では,OOD検出における性能と計算効率の両面において,従来のベースラインよりも向上した汎用的,非段階的なOOD検出手法を提案する。
論文 参考訳(メタデータ) (2022-05-20T21:10:05Z) - OODformer: Out-Of-Distribution Detection Transformer [15.17006322500865]
現実世界の安全クリティカルなアプリケーションでは、新しいデータポイントがOODであるかどうかを認識することが重要です。
本稿では,OODformer というファースト・オブ・ザ・キンドな OOD 検出アーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-07-19T15:46:38Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。