論文の概要: Vision Transformer Neural Architecture Search for Out-of-Distribution Generalization: Benchmark and Insights
- arxiv url: http://arxiv.org/abs/2501.03782v1
- Date: Tue, 07 Jan 2025 13:45:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-08 15:47:03.961808
- Title: Vision Transformer Neural Architecture Search for Out-of-Distribution Generalization: Benchmark and Insights
- Title(参考訳): Vision Transformer Neural Architecture Search for Out-of-Distribution Generalization: Benchmark and Insights
- Authors: Sy-Tuyen Ho, Tuan Van Vo, Somayeh Ebrahimkhani, Ngai-Man Cheung,
- Abstract要約: 我々は、OoDの一般化に焦点をあてたVT NASのための最初のシステマティックベンチマークであるOoD-ViT-NASを紹介する。
このベンチマークには、8つのOoDデータセットで評価される様々な計算予算の3000のViTアーキテクチャが含まれている。
- 参考スコア(独自算出の注目度): 21.471913189393106
- License:
- Abstract: While ViTs have achieved across machine learning tasks, deploying them in real-world scenarios faces a critical challenge: generalizing under OoD shifts. A crucial research gap exists in understanding how to design ViT architectures, both manually and automatically, for better OoD generalization. To this end, we introduce OoD-ViT-NAS, the first systematic benchmark for ViTs NAS focused on OoD generalization. This benchmark includes 3000 ViT architectures of varying computational budgets evaluated on 8 common OoD datasets. Using this benchmark, we analyze factors contributing to OoD generalization. Our findings reveal key insights. First, ViT architecture designs significantly affect OoD generalization. Second, ID accuracy is often a poor indicator of OoD accuracy, highlighting the risk of optimizing ViT architectures solely for ID performance. Third, we perform the first study of NAS for ViTs OoD robustness, analyzing 9 Training-free NAS methods. We find that existing Training-free NAS methods are largely ineffective in predicting OoD accuracy despite excelling at ID accuracy. Simple proxies like Param or Flop surprisingly outperform complex Training-free NAS methods in predicting OoD accuracy. Finally, we study how ViT architectural attributes impact OoD generalization and discover that increasing embedding dimensions generally enhances performance. Our benchmark shows that ViT architectures exhibit a wide range of OoD accuracy, with up to 11.85% improvement for some OoD shifts. This underscores the importance of studying ViT architecture design for OoD. We believe OoD-ViT-NAS can catalyze further research into how ViT designs influence OoD generalization.
- Abstract(参考訳): ViTは機械学習タスクで達成されているが、現実のシナリオにそれらをデプロイすることは、OoDシフトの下での一般化という、重要な課題に直面している。
重要な研究ギャップは、OoDの一般化のために、手動と自動の両方でViTアーキテクチャを設計する方法を理解することである。
この目的のために、我々は、OoDの一般化に焦点をあてた最初の系統的ベンチマークであるOoD-ViT-NASを紹介する。
このベンチマークには、8つのOoDデータセットで評価される様々な計算予算の3000のViTアーキテクチャが含まれている。
このベンチマークを用いて、OoDの一般化に寄与する要因を分析する。
私たちの発見は重要な洞察を浮き彫りにした。
第一に、ViTアーキテクチャの設計はOoDの一般化に大きな影響を及ぼす。
第二に、IDの精度はOoDの精度の低い指標であり、IDのパフォーマンスのみを最適化するリスクを強調している。
第3に,9つのトレーニングフリーNAS法を解析し,VTs OoDロバスト性に関するNASの最初の研究を行った。
既存のトレーニングフリーNAS法は,ID精度が優れているにもかかわらず,OoD精度の予測にはほとんど効果がないことがわかった。
ParamやFlopのような単純なプロキシは、OoD精度を予測するために複雑なトレーニングなしNASメソッドよりも驚くほど優れています。
最後に,ViTのアーキテクチャ特性がOoDの一般化に与える影響について検討し,埋め込み次元の増大が一般に性能を向上させることを明らかにする。
我々のベンチマークでは、VTアーキテクチャはOoDの精度が広く、OoDシフトでは最大11.85%改善している。
このことは、OoDのためのViTアーキテクチャ設計を研究することの重要性を浮き彫りにしている。
我々は、OoD-ViT-NASが、ViT設計がOoD一般化にどのように影響するかのさらなる研究を触媒できると考えている。
関連論文リスト
- Towards Robust Out-of-Distribution Generalization: Data Augmentation and Neural Architecture Search Approaches [4.577842191730992]
我々は、ディープラーニングのための堅牢なOoD一般化への道を探る。
まず,認識に必須でない特徴間の素早い相関を解消するための,新しい効果的なアプローチを提案する。
次に,OoDシナリオにおけるニューラルアーキテクチャ探索の強化問題について検討する。
論文 参考訳(メタデータ) (2024-10-25T20:50:32Z) - An Experimental Study on Exploring Strong Lightweight Vision Transformers via Masked Image Modeling Pre-Training [51.622652121580394]
Masked Image Modeling (MIM) Pre-training for Large-scale Vision Transformer (ViTs) は、学習した自己教師型ViT機能に加えて、下流での有望なパフォーマンスを実現する。
本稿では,テキストテキストレメリーで軽量なViTの微調整性能が,この事前学習パラダイムの恩恵を受けるかどうかを問う。
バニラ/階層設計(5.7M$/6.5M$)による純軽量ViTの蒸留による事前トレーニングは、ImageNet-1で79.4%$/78.9%の精度で達成できる。
論文 参考訳(メタデータ) (2024-04-18T14:14:44Z) - Toward Edge-Efficient Dense Predictions with Synergistic Multi-Task
Neural Architecture Search [22.62389136288258]
エッジプラットフォーム上で効率的な高密度予測を開発する上での課題に対処する,新しい,スケーラブルなソリューションを提案する。
最初の重要な洞察は、マルチタスクラーニング(MTL)とハードウェア対応のニューラルアーキテクチャサーチ(NAS)が、デバイス上のディエンス予測(DP)に多大な利益をもたらすためにシナジーで機能できることである。
JAReDは、望ましくないノイズの最大88%を低減し、同時に精度を向上する。
論文 参考訳(メタデータ) (2022-10-04T04:49:08Z) - Training-free Transformer Architecture Search [89.88412583106741]
Vision Transformer (ViT) はいくつかのコンピュータビジョンタスクで顕著な成功を収めた。
現在のTransformer Architecture Search (TAS) の手法は時間がかかり、既存のCNNのゼロコストプロキシはViT検索空間にうまく一般化していない。
本稿では,TASをトレーニング不要な方法で実施する方法を初めて検討し,効果的なトレーニング不要なTASスキームを考案する。
論文 参考訳(メタデータ) (2022-03-23T06:06:54Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z) - Auto-scaling Vision Transformers without Training [84.34662535276898]
本研究では,視覚変換器(ViT)の自動スケーリングフレームワークAs-ViTを提案する。
As-ViTは、ViTを効率的かつ原則的に自動的に発見し、スケールアップする。
As-ViTは統合されたフレームワークとして、分類と検出において高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-02-24T06:30:55Z) - A Unified Pruning Framework for Vision Transformers [40.7622551128182]
ビジョントランス(ViT)とその変種は様々なコンピュータビジョンタスクにおいて有望な性能を達成した。
本稿では, UP-ViT と UP-ViT の両方の構造解析のための統一的な枠組みを提案する。
本手法は,モデル構造の整合性を維持しつつ,すべてのViTsコンポーネントのプルーニングに重点を置いている。
論文 参考訳(メタデータ) (2021-11-30T05:01:02Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。