論文の概要: Rethink Long-tailed Recognition with Vision Transformers
- arxiv url: http://arxiv.org/abs/2302.14284v2
- Date: Mon, 17 Apr 2023 08:35:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 20:53:31.973236
- Title: Rethink Long-tailed Recognition with Vision Transformers
- Title(参考訳): 視覚トランスフォーマーによるロングテール認識の再考
- Authors: Zhengzhuo Xu, Shuo Yang, Xingjun Wang, Chun Yuan
- Abstract要約: ビジョントランスフォーマー(ViT)は、長い尾のデータでトレーニングするのが難しい。
ViTは教師なしの方法で一般化された特徴を学習する。
予測分布(英: Predictive Distribution、PDC)は、長手認識のための新しい指標である。
- 参考スコア(独自算出の注目度): 18.73285611631722
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the real world, data tends to follow long-tailed distributions w.r.t.
class or attribution, motivating the challenging Long-Tailed Recognition (LTR)
problem. In this paper, we revisit recent LTR methods with promising Vision
Transformers (ViT). We figure out that 1) ViT is hard to train with long-tailed
data. 2) ViT learns generalized features in an unsupervised manner, like mask
generative training, either on long-tailed or balanced datasets. Hence, we
propose to adopt unsupervised learning to utilize long-tailed data.
Furthermore, we propose the Predictive Distribution Calibration (PDC) as a
novel metric for LTR, where the model tends to simply classify inputs into
common classes. Our PDC can measure the model calibration of predictive
preferences quantitatively. On this basis, we find many LTR approaches
alleviate it slightly, despite the accuracy improvement. Extensive experiments
on benchmark datasets validate that PDC reflects the model's predictive
preference precisely, which is consistent with the visualization.
- Abstract(参考訳): 現実の世界では、データは長い尾の分布w.r.t.クラスや属性に従う傾向にあり、LTR(Long-Tailed Recognition)問題に挑戦する動機となっている。
本稿では,視覚変換器(ViT)を用いた最近のLTR手法を再検討する。
私たちはそれを理解し
1)ViTは長い尾のデータで訓練するのは難しい。
2) ViTはマスク生成トレーニングのような教師なしの方法で一般化された特徴を学習する。
そこで本稿では,教師なし学習を長期データ利用に適用することを提案する。
さらに,予測分布校正法(PDC)をLTRの新しい指標として提案する。
我々のPDCは予測選好のモデル校正を定量的に測定できる。
精度が向上したにもかかわらず,多くのLTR手法が若干緩和されている。
ベンチマークデータセットの大規模な実験は、PDCがモデルの予測的嗜好を正確に反映していることを検証する。
関連論文リスト
- Adaptive Adapter Routing for Long-Tailed Class-Incremental Learning [55.384428765798496]
新しいデータは、Eコマースプラットフォームレビューのような、長期にわたる流通を示す。
これは、忘れずに不均衡なデータを連続的なモデルで学習する必要がある。
LTCILの例として,AdaPtive Adapter Routing (APART) を提案する。
論文 参考訳(メタデータ) (2024-09-11T17:52:00Z) - Long-term Pre-training for Temporal Action Detection with Transformers [21.164101507575186]
時間的行動検出(TAD)は、現実の動画アプリケーションには難しいが、基本的なものである。
本稿では,データ不足による2つの重要な問題,すなわち注意崩壊と不均衡性能について述べる。
本稿では,変圧器に適した新しい事前学習戦略である長期事前学習を提案する。
論文 参考訳(メタデータ) (2024-08-23T15:20:53Z) - REP: Resource-Efficient Prompting for On-device Continual Learning [23.92661395403251]
オンデバイス連続学習(CL)は、モデル精度と資源効率の協調最適化を実践するために必要である。
CNNベースのCLは資源効率に優れており、ViTベースのCLはモデル性能に優れていると一般的に信じられている。
本稿では,プロンプトベースのリハーサルフリー手法を特化して資源効率を向上させるREPを紹介する。
論文 参考訳(メタデータ) (2024-06-07T09:17:33Z) - LARA: A Light and Anti-overfitting Retraining Approach for Unsupervised
Time Series Anomaly Detection [49.52429991848581]
深部変分自動エンコーダに基づく時系列異常検出手法(VAE)のための光・反オーバーフィット学習手法(LARA)を提案する。
本研究の目的は,1) 再学習過程を凸問題として定式化し, 過度に収束できること,2) 履歴データを保存せずに活用するルミネートブロックを設計すること,3) 潜在ベクトルと再構成データの微調整を行うと, 線形形成が基底真実と微調整されたブロックとの誤りを最小に調整できることを数学的に証明することである。
論文 参考訳(メタデータ) (2023-10-09T12:36:16Z) - Generalized Face Forgery Detection via Adaptive Learning for Pre-trained Vision Transformer [54.32283739486781]
適応学習パラダイムの下で,textbfForgery-aware textbfAdaptive textbfVision textbfTransformer(FA-ViT)を提案する。
FA-ViTは、クロスデータセット評価において、Celeb-DFおよびDFDCデータセット上で93.83%と78.32%のAUCスコアを達成する。
論文 参考訳(メタデータ) (2023-09-20T06:51:11Z) - MAP: A Model-agnostic Pretraining Framework for Click-through Rate
Prediction [39.48740397029264]
本稿では,多分野分類データに特徴的破損と回復を適用したMAP(Model-Agnostic Pretraining)フレームワークを提案する。
マスク付き特徴予測(RFD)と代替特徴検出(RFD)の2つの実用的なアルゴリズムを導出する。
論文 参考訳(メタデータ) (2023-08-03T12:55:55Z) - Towards Flexible Inductive Bias via Progressive Reparameterization
Scheduling [25.76814731638375]
コンピュータビジョンには、畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)の2つのデファクト標準アーキテクチャがある。
これらのアプローチの見落としとして、最適な帰納バイアスも、対象データスケールの変化に応じて変化することを示す。
畳み込みのような帰納バイアスがモデルに含まれるほど、ViTのようなモデルがResNetのパフォーマンスを上回っている場合、データスケールが小さくなります。
論文 参考訳(メタデータ) (2022-10-04T04:20:20Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z) - Long-tailed Recognition by Routing Diverse Distribution-Aware Experts [64.71102030006422]
我々は、RoutIng Diverse Experts (RIDE) と呼ばれる新しい長い尾の分類器を提案する。
複数の専門家とのモデルの分散を減らし、分布を考慮した多様性損失によるモデルバイアスを減らし、動的専門家ルーティングモジュールによる計算コストを削減します。
RIDEは、CIFAR100-LT、ImageNet-LT、iNaturalist 2018ベンチマークで最先端を5%から7%上回っている。
論文 参考訳(メタデータ) (2020-10-05T06:53:44Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。