論文の概要: Understanding vision transformer robustness through the lens of out-of-distribution detection
- arxiv url: http://arxiv.org/abs/2602.01459v1
- Date: Sun, 01 Feb 2026 22:00:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.796975
- Title: Understanding vision transformer robustness through the lens of out-of-distribution detection
- Title(参考訳): 分布外検出レンズによる視力変換器のロバスト性理解
- Authors: Joey Kuang, Alexander Wong,
- Abstract要約: 量子化はメモリと推論コストを削減し、性能損失のリスクを負う。
本稿では, 量子化小型可変ビジョントランス (DeiT, DeiT3, ViT) の共通アウト・オブ・ディストリビューション (OOD) データセットにおける挙動について検討する。
- 参考スコア(独自算出の注目度): 59.72757235382676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision transformers have shown remarkable performance in vision tasks, but enabling them for accessible and real-time use is still challenging. Quantization reduces memory and inference costs at the risk of performance loss. Strides have been made to mitigate low precision issues mainly by understanding in-distribution (ID) task behaviour, but the attention mechanism may provide insight on quantization attributes by exploring out-of-distribution (OOD) situations. We investigate the behaviour of quantized small-variant popular vision transformers (DeiT, DeiT3, and ViT) on common OOD datasets. ID analyses show the initial instabilities of 4-bit models, particularly of those trained on the larger ImageNet-22k, as the strongest FP32 model, DeiT3, sharply drop 17% from quantization error to be one of the weakest 4-bit models. While ViT shows reasonable quantization robustness for ID calibration, OOD detection reveals more: ViT and DeiT3 pretrained on ImageNet-22k respectively experienced a 15.0% and 19.2% average quantization delta in AUPR-out between full precision to 4-bit while their ImageNet-1k-only counterparts experienced a 9.5% and 12.0% delta. Overall, our results suggest pretraining on large scale datasets may hinder low-bit quantization robustness in OOD detection and that data augmentation may be a more beneficial option.
- Abstract(参考訳): ビジョントランスフォーマーは、視覚タスクにおいて顕著なパフォーマンスを示してきたが、それらがアクセス可能でリアルタイムの使用を可能にすることは依然として困難である。
量子化はメモリと推論コストを削減し、性能損失のリスクを負う。
分散内課題行動(ID)の理解を中心に、低精度の問題を緩和するためにストライドが作られてきたが、注意機構は、分散外状況(OOD)を探索することによって、量子化特性に関する洞察を提供する可能性がある。
一般的なOODデータセット上での量子化小型変光器(DeiT,DeiT3,ViT)の挙動について検討する。
ID分析は、4ビットモデル、特に大型のImageNet-22kで訓練されたモデルの初期不安定性を示しており、最強のFP32モデルであるDeiT3は量子化誤差から17%を急激に減少させ、最も弱い4ビットモデルの一つとなった。
ViT と DeiT3 は、それぞれ ImageNet-22k で事前訓練され、15.0% と 19.2% の平均量子化デルタが AUPR で4ビットまでの完全精度で、ImageNet-1k のみのものは 9.5% と 12.0% の差で測定された。
以上の結果から,大規模データセットの事前トレーニングはOOD検出における低ビット量子化の堅牢性を損なう可能性があり,データ拡張がより有益な選択肢である可能性が示唆された。
関連論文リスト
- HEART-VIT: Hessian-Guided Efficient Dynamic Attention and Token Pruning in Vision Transformer [3.652580364273503]
本稿では,Hessian-Guided efficient dynamic attention and token pruning framework for vision transformerを紹介する。
HEART-ViTは、効率的なヘッセンベクトル生成物を用いてトークンとアテンションヘッドの曲率重み付け感度を推定する。
ImageNet-100とImageNet-1KのViT-B/16とDeiT-B/16では、HEART-ViTは最大49.4%のFLOP削減、36%のレイテンシ、6%のスループットを実現している。
論文 参考訳(メタデータ) (2025-12-23T07:23:16Z) - ADFQ-ViT: Activation-Distribution-Friendly Post-Training Quantization for Vision Transformers [7.155242379236052]
ビジョントランスフォーマー(ViT)の量子化は、これらの課題を緩和するための有望なソリューションとして現れている。
既存の手法は依然として低ビットでの精度の低下に悩まされている。
ADFQ-ViTは、画像分類、オブジェクト検出、および4ビットでのインスタンスセグメンテーションタスクにおいて、様々なベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2024-07-03T02:41:59Z) - QD-BEV : Quantization-aware View-guided Distillation for Multi-view 3D
Object Detection [57.019527599167255]
BEV (bird-eye-view) に基づく多視点3D検出は、最近大幅に改善されている。
本稿では,BEVタスクに量子化を直接適用することで,トレーニングが不安定になり,性能劣化が許容できないことを示す。
QD-BEVにより,新しいビュー誘導蒸留(VGD)の目標が実現され,QAT(量子化対応トレーニング)の安定化が図られ,モデル性能が向上する。
論文 参考訳(メタデータ) (2023-08-21T07:06:49Z) - Pushing the Limits of Fewshot Anomaly Detection in Industry Vision:
Graphcore [71.09522172098733]
FSADにおけるグラフ表現を利用して,新しい視覚不変特徴(VIIF)を異常測定特徴として利用する。
VIIFは異常識別能力を確実に向上し、Mに格納された冗長な特徴のサイズをさらに小さくすることができる。
さらに、教師なしFSADトレーニングを高速に実装し、異常検出の性能を向上させることができる、VIIFによる新しいモデルGraphCoreを提供する。
論文 参考訳(メタデータ) (2023-01-28T03:58:32Z) - Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。