Fugu-MT 論文翻訳(概要): PViT: Prior-augmented Vision Transformer for Out-of-distribution Detection

論文の概要: PViT: Prior-augmented Vision Transformer for Out-of-distribution Detection

arxiv url: http://arxiv.org/abs/2410.20631v2
Date: Mon, 13 Jan 2025 23:45:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-15 17:02:04.216111
Title: PViT: Prior-augmented Vision Transformer for Out-of-distribution Detection
Title（参考訳）: PViT:アウト・オブ・ディストリビューション検出のための前処理型視覚変換器
Authors: Tianhao Zhang, Zhixiang Chen, Lyudmila S. Mihaylova,
Abstract要約: 我々は、画像出力(OOD)検出のためのViTモデルの堅牢性を高めるために、PViT(Predior-augmented Vision Transformer)を導入する。 PViTは、提案した先導信頼度を利用して、IDとOOD間の決定境界を形成する。 PViTは、既存のSOTA OOD検出法よりもFPR95とAUROCで優れている。
参考スコア（独自算出の注目度）: 10.724906455759854
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision Transformers (ViTs) have achieved remarkable success over various vision tasks, yet their robustness against data distribution shifts and inherent inductive biases remain underexplored. To enhance the robustness of ViT models for image Out-of-Distribution (OOD) detection, we introduce a novel and generic framework named Prior-augmented Vision Transformer (PViT). Taking as input the prior class logits from a pretrained model, we train PViT to predict the class logits. During inference, PViT identifies OOD samples by quantifying the divergence between the predicted class logits and the prior logits obtained from pre-trained models. Unlike existing state-of-the-art(SOTA) OOD detection methods, PViT shapes the decision boundary between ID and OOD by utilizing the proposed prior guided confidence, without requiring additional data modeling, generation methods, or structural modifications. Extensive experiments on the large-scale ImageNet benchmark, evaluated against over seven OOD datasets, demonstrate that PViT significantly outperforms existing SOTA OOD detection methods in terms of FPR95 and AUROC. The codebase is publicly available at https://github.com/RanchoGoose/PViT.
Abstract（参考訳）: ビジョントランスフォーマー(ViT)は、様々なビジョンタスクにおいて顕著な成功を収めてきたが、データ分散シフトに対する頑健さと固有の帰納バイアスは、まだ未発見のままである。画像出力(OOD)検出のためのViTモデルのロバスト性を高めるために,PViT(Presideed-augmented Vision Transformer)という新しい汎用フレームワークを導入する。事前訓練されたモデルから事前クラスログを入力として、クラスログを予測するためにPViTをトレーニングします。推論中、PViTは予測されたクラスロジットと事前訓練されたモデルから得られた前のロジットとのばらつきを定量化し、OODサンプルを識別する。既存のSOTA(State-of-the-art(SOTA) OOD検出方法とは異なり、PViTは、データモデリング、生成方法、構造変更を必要とせず、提案した事前指導された信頼度を利用してIDとOOD間の決定境界を形成する。 7つのOODデータセットに対して評価された大規模ImageNetベンチマークの大規模な実験により、PViTはFPR95とAUROCの点で既存のSOTA OOD検出方法よりも大幅に優れていることが示された。コードベースはhttps://github.com/RanchoGoose/PViT.comで公開されている。

関連論文リスト

Can OOD Object Detectors Learn from Foundation Models? [56.03404530594071]
アウト・オブ・ディストリビューション(OOD)オブジェクト検出は、オープンセットのOODデータがないため、難しい課題である。テキストから画像への生成モデルの最近の進歩に触発されて,大規模オープンセットデータを用いて訓練された生成モデルがOODサンプルを合成する可能性について検討した。 SyncOODは,大規模基盤モデルの能力を活用するシンプルなデータキュレーション手法である。
論文参考訳（メタデータ） (2024-09-08T17:28:22Z)
Situation Monitor: Diversity-Driven Zero-Shot Out-of-Distribution Detection using Budding Ensemble Architecture for Object Detection [5.706574483483306]
コンディションモニターは、トランスフォーマーに基づくオブジェクト検出モデルのための新しいゼロショットアウトオブディストリビューション(OOD)検出手法である。自律運転のような安全クリティカルな機械学習アプリケーションの信頼性を高める。
論文参考訳（メタデータ） (2024-06-05T12:20:36Z)
Benchmarking and Improving Bird's Eye View Perception Robustness in Autonomous Driving [55.93813178692077]
本稿では,BEVアルゴリズムのレジリエンスを評価するためのベンチマークスイートであるRoboBEVを紹介する。検出,マップセグメンテーション,深さ推定,占有予測といったタスクにまたがる33の最先端のBEVベースの知覚モデルを評価する。また, 事前学習や深度自由なBEVトランスフォーメーションなどの戦略が, アウト・オブ・ディストリビューションデータに対するロバスト性を高める上で有効であることを示す。
論文参考訳（メタデータ） (2024-05-27T17:59:39Z)
Mitigating Overconfidence in Out-of-Distribution Detection by Capturing Extreme Activations [1.8531577178922987]
Overconfidence"は特定のニューラルネットワークアーキテクチャの本質的な性質であり、OOD検出の低さにつながる。ニューラルネットワークの最後層における極端なアクティベーション値を計測し、この過信のプロキシを利用して、複数のOOD検出ベースラインを改善する。基準値と比較すると,OOD検出は2桁に増加し,精度が向上することが多い。
論文参考訳（メタデータ） (2024-05-21T10:14:50Z)
A Mixture of Exemplars Approach for Efficient Out-of-Distribution Detection with Foundation Models [0.0]
本稿では, 高品質で凍結, 事前訓練された基礎モデルを用いて, トレーニングの利点を最大化するためのOOD検出への効率的なアプローチを提案する。 MoLARは、OODの例と例の類似性だけを比較すると、強力なOODパフォーマンスを提供する。
論文参考訳（メタデータ） (2023-11-28T06:12:28Z)
Towards Few-shot Out-of-Distribution Detection [6.297489935041838]
アウト・オブ・ディストリビューション(OOD)検出は、オープンワールドのインテリジェントシステムの信頼性を確保するために重要である。本研究は, トレーニングサンプルの不足により, 有意な性能低下が認められた。我々はこのギャップに対処するために慎重に構築された新しい数発のOOD検出ベンチマークを導入する。
論文参考訳（メタデータ） (2023-11-20T03:51:58Z)
Generalized Face Forgery Detection via Adaptive Learning for Pre-trained Vision Transformer [54.32283739486781]
適応学習パラダイムの下で,textbfForgery-aware textbfAdaptive textbfVision textbfTransformer(FA-ViT)を提案する。 FA-ViTは、クロスデータセット評価において、Celeb-DFおよびDFDCデータセット上で93.83%と78.32%のAUCスコアを達成する。
論文参考訳（メタデータ） (2023-09-20T06:51:11Z)
Combining pre-trained Vision Transformers and CIDER for Out Of Domain Detection [0.774971301405295]
ほとんどの産業用パイプラインは、CNNやVision Transformersのような下流タスクのための事前訓練されたモデルに依存している。本稿では,ドメイン外検出におけるモデルの性能について検討する。
論文参考訳（メタデータ） (2023-09-06T14:41:55Z)
Do-GOOD: Towards Distribution Shift Evaluation for Pre-Trained Visual Document Understanding Models [68.12229916000584]
本研究では,文書画像関連タスクの微粒化解析のためのDO-GOOD(Out-of-distriion)ベンチマークを開発した。次に、ロバスト性を評価し、5つの最新のVDU事前学習モデルと2つの典型的なOOD一般化アルゴリズムのきめ細かい解析を行う。
論文参考訳（メタデータ） (2023-06-05T06:50:42Z)
Masked Images Are Counterfactual Samples for Robust Fine-tuning [77.82348472169335]
微調整の深層学習モデルは、分布内(ID)性能と分布外(OOD)堅牢性の間のトレードオフにつながる可能性がある。そこで本研究では,マスク付き画像を対物サンプルとして用いて,ファインチューニングモデルのロバスト性を向上させる新しいファインチューニング手法を提案する。
論文参考訳（メタデータ） (2023-03-06T11:51:28Z)
Energy-based Out-of-Distribution Detection for Graph Neural Networks [76.0242218180483]
我々は,GNNSafeと呼ばれるグラフ上での学習のための,シンプルで強力で効率的なOOD検出モデルを提案する。 GNNSafeは、最先端技術に対するAUROCの改善を最大17.0%で達成しており、そのような未開発領域では単純だが強力なベースラインとして機能する可能性がある。
論文参考訳（メタデータ） (2023-02-06T16:38:43Z)
Optimizing Relevance Maps of Vision Transformers Improves Robustness [91.61353418331244]
視覚的分類モデルは、しばしば画像背景に依存し、前景を無視し、分布の変化に対する頑丈さを損なうことが観察されている。本稿では,モデルが前景オブジェクトに注目するように,モデルの関連性信号を監視して操作することを提案する。これは、画像とそれに関連する前景マスクからなる比較的少数のサンプルを含む、微調整のステップとして行われる。
論文参考訳（メタデータ） (2022-06-02T17:24:48Z)
How Useful are Gradients for OOD Detection Really? [5.459639971144757]
Out of Distribution(OOD)検出は、リアルタイムアプリケーションに高性能な機械学習モデルをデプロイする上で重要な課題である。 OOD検出のための勾配法を詳細に解析し,比較する。本稿では,OOD検出における性能と計算効率の両面において,従来のベースラインよりも向上した汎用的,非段階的なOOD検出手法を提案する。
論文参考訳（メタデータ） (2022-05-20T21:10:05Z)
Learning Generative Vision Transformer with Energy-Based Latent Space for Saliency Prediction [51.80191416661064]
本稿では,有意な物体検出に先立って,潜伏変数を持つ新しい視覚変換器を提案する。ビジョントランスネットワークとエネルギーベース先行モデルの両方は、マルコフ連鎖モンテカルロによる最大推定を通じて共同で訓練される。生成型視覚変換器により、画像から容易に画素単位の不確実性マップを得ることができ、画像から唾液濃度を予測するためのモデル信頼度を示す。
論文参考訳（メタデータ） (2021-12-27T06:04:33Z)
OODformer: Out-Of-Distribution Detection Transformer [15.17006322500865]
現実世界の安全クリティカルなアプリケーションでは、新しいデータポイントがOODであるかどうかを認識することが重要です。本稿では,OODformer というファースト・オブ・ザ・キンドな OOD 検出アーキテクチャを提案する。
論文参考訳（メタデータ） (2021-07-19T15:46:38Z)
Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。 ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文参考訳（メタデータ） (2021-05-17T02:39:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。