論文の概要: Which Tokens to Use? Investigating Token Reduction in Vision
Transformers
- arxiv url: http://arxiv.org/abs/2308.04657v1
- Date: Wed, 9 Aug 2023 01:51:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 15:19:05.166973
- Title: Which Tokens to Use? Investigating Token Reduction in Vision
Transformers
- Title(参考訳): どのトークンを使うか?
視覚トランスフォーマのトークン削減の検討
- Authors: Joakim Bruslund Haurum, Sergio Escalera, Graham W. Taylor, Thomas B.
Moeslund
- Abstract要約: 4つの画像分類データセットを用いた10種類のトークン削減手法の削減パターンについて検討した。
トップKプルーニング法は驚くほど強力なベースラインであることがわかった。
リダクションパターンの類似性は、モデルパフォーマンスの適度なプロキシである。
- 参考スコア(独自算出の注目度): 64.99704164972513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since the introduction of the Vision Transformer (ViT), researchers have
sought to make ViTs more efficient by removing redundant information in the
processed tokens. While different methods have been explored to achieve this
goal, we still lack understanding of the resulting reduction patterns and how
those patterns differ across token reduction methods and datasets. To close
this gap, we set out to understand the reduction patterns of 10 different token
reduction methods using four image classification datasets. By systematically
comparing these methods on the different classification tasks, we find that the
Top-K pruning method is a surprisingly strong baseline. Through in-depth
analysis of the different methods, we determine that: the reduction patterns
are generally not consistent when varying the capacity of the backbone model,
the reduction patterns of pruning-based methods significantly differ from fixed
radial patterns, and the reduction patterns of pruning-based methods are
correlated across classification datasets. Finally we report that the
similarity of reduction patterns is a moderate-to-strong proxy for model
performance. Project page at https://vap.aau.dk/tokens.
- Abstract(参考訳): ViT(Vision Transformer)の導入以来、研究者は、処理されたトークンの冗長な情報を除去することで、ViTをより効率的にすることを模索してきた。
この目標を達成するためにさまざまな方法が検討されているが、結果として生じる削減パターンと、それらのパターンがトークン削減メソッドやデータセット間でどのように異なるかは、まだ理解されていない。
このギャップを埋めるために、4つの画像分類データセットを用いて10種類のトークン削減手法の削減パターンを解明した。
異なる分類タスクでこれらの手法を体系的に比較することにより、Top-Kプルーニング法は驚くほど強力なベースラインであることが分かる。
異なる手法の詳細な分析により, バックボーンモデルの容量が変化すると, 縮小パターンは概ね一致せず, プルーニング方式の削減パターンは固定ラジアル方式とは大きく異なり, プルーニング方式の削減パターンは分類データセット間で相関することがわかった。
最後に、縮退パターンの類似性がモデル性能の適度なプロキシであることを示す。
プロジェクトページはhttps://vap.aau.dk/tokens.com。
関連論文リスト
- SINDER: Repairing the Singular Defects of DINOv2 [61.98878352956125]
大規模なデータセットでトレーニングされたビジョントランスフォーマーモデルは、抽出したパッチトークンにアーティファクトを表示することが多い。
本稿では,小さなデータセットのみを用いて構造欠陥を補正するスムーズなスムーズな正規化を提案する。
論文 参考訳(メタデータ) (2024-07-23T20:34:23Z) - Learning to Rank Patches for Unbiased Image Redundancy Reduction [80.93989115541966]
画像は、隣接する領域の画素が空間的に相関しているため、空間的冗長性に悩まされる。
既存のアプローチでは、意味の少ない画像領域を減らし、この制限を克服しようとしている。
本稿では,Learning to Rank Patchesと呼ばれる画像冗長性低減のための自己教師型フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-31T13:12:41Z) - Decoupled Prototype Learning for Reliable Test-Time Adaptation [50.779896759106784]
テスト時間適応(TTA)は、推論中にトレーニング済みのソースモデルをターゲットドメインに継続的に適応させるタスクである。
1つの一般的なアプローチは、推定擬似ラベルによるクロスエントロピー損失を伴う微調整モデルである。
本研究は, 各試料の分類誤差を最小化することで, クロスエントロピー損失の脆弱性がラベルノイズを引き起こすことを明らかにした。
本稿では,プロトタイプ中心の損失計算を特徴とする新しいDPL法を提案する。
論文 参考訳(メタデータ) (2024-01-15T03:33:39Z) - Simplified Concrete Dropout -- Improving the Generation of Attribution
Masks for Fine-grained Classification [8.330791157878137]
細粒度分類モデルは、しばしば自動化された動物監視システムにおいて動物種または個体を特定するために展開される。
注意に基づく手法や勾配に基づく手法は、分類決定に最も寄与する画像内の領域を特定するために一般的に用いられる。
本稿では,CDサンプリングを簡略化し,大規模なミニバッチサイズへの依存を減らすことにより,これらの計算不安定を回避できるソリューションを提案する。
論文 参考訳(メタデータ) (2023-07-27T13:01:49Z) - CEnt: An Entropy-based Model-agnostic Explainability Framework to
Contrast Classifiers' Decisions [2.543865489517869]
我々は任意の分類器の予測を局所的に対比する新しい手法を提案する。
コントラストエントロピーに基づく説明法CEntは、決定木によって局所的にモデルを近似し、異なる特徴分割のエントロピー情報を算出する。
CEntは、不変性(人種など)と半不変性(年齢が増加する方向にしか変化しない)を満足しながら、トレーニングデータに必ずしも存在しない多様な反事実を生成する最初の非漸進的コントラスト法である。
論文 参考訳(メタデータ) (2023-01-19T08:23:34Z) - TiCo: Transformation Invariance and Covariance Contrast for
Self-Supervised Visual Representation Learning [9.507070656654632]
自己教師型視覚表現学習のための変換不変性と共分散コントラスト(TiCo)を提案する。
提案手法は,同一画像の異なる歪みバージョンの埋め込み間の一致を最大化することに基づいている。
また,TiCoは容量無制限の暗黙記憶バンクであるMoCoの変種と見なすことができ,余分なメモリコストを伴わないことを示す。
論文 参考訳(メタデータ) (2022-06-21T19:44:01Z) - Deblurring via Stochastic Refinement [85.42730934561101]
条件付き拡散モデルに基づくブラインドデブロアリングのための代替フレームワークを提案する。
提案手法は,PSNRなどの歪み指標の点で競合する。
論文 参考訳(メタデータ) (2021-12-05T04:36:09Z) - Learning explanations that are hard to vary [75.30552491694066]
例を越えた平均化は、異なる戦略を縫合する記憶とパッチワークのソリューションに有利であることを示す。
そこで我々は論理ANDに基づく単純な代替アルゴリズムを提案し,実験的に検証する。
論文 参考訳(メタデータ) (2020-09-01T10:17:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。