論文の概要: Sub-token ViT Embedding via Stochastic Resonance Transformers
- arxiv url: http://arxiv.org/abs/2310.03967v1
- Date: Fri, 6 Oct 2023 01:53:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-10 03:43:04.183687
- Title: Sub-token ViT Embedding via Stochastic Resonance Transformers
- Title(参考訳): 確率共振変換器によるサブトークン ViT 埋め込み
- Authors: Dong Lao, Yangchao Wu, Tian Yu Liu, Alex Wong, Stefano Soatto
- Abstract要約: 本稿では、事前学習したViTが空間量子化をどのように扱うかを改善する方法を提案する。
SRT(Stochastic Resonance Transformer)と呼ぶ。
SRTはどんな層でも、どんなタスクでも適用でき、微調整は不要である。
- 参考スコア(独自算出の注目度): 54.84390340877745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We discover the presence of quantization artifacts in Vision Transformers
(ViTs), which arise due to the image tokenization step inherent in these
architectures. These artifacts result in coarsely quantized features, which
negatively impact performance, especially on downstream dense prediction tasks.
We present a zero-shot method to improve how pre-trained ViTs handle spatial
quantization. In particular, we propose to ensemble the features obtained from
perturbing input images via sub-token spatial translations, inspired by
Stochastic Resonance, a method traditionally applied to climate dynamics and
signal processing. We term our method ``Stochastic Resonance Transformer"
(SRT), which we show can effectively super-resolve features of pre-trained
ViTs, capturing more of the local fine-grained structures that might otherwise
be neglected as a result of tokenization. SRT can be applied at any layer, on
any task, and does not require any fine-tuning. The advantage of the former is
evident when applied to monocular depth prediction, where we show that
ensembling model outputs are detrimental while applying SRT on intermediate ViT
features outperforms the baseline models by an average of 4.7% and 14.9% on the
RMSE and RMSE-log metrics across three different architectures. When applied to
semi-supervised video object segmentation, SRT also improves over the baseline
models uniformly across all metrics, and by an average of 2.4% in F&J score. We
further show that these quantization artifacts can be attenuated to some extent
via self-distillation. On the unsupervised salient region segmentation, SRT
improves upon the base model by an average of 2.1% on the maxF metric. Finally,
despite operating purely on pixel-level features, SRT generalizes to non-dense
prediction tasks such as image retrieval and object discovery, yielding
consistent improvements of up to 2.6% and 1.0% respectively.
- Abstract(参考訳): 視覚変換器(ViT)における量子化アーティファクトの存在は,これらのアーキテクチャに固有の画像トークン化ステップによって生じる。
これらの成果物は粗く定量化され、特に下流の密集した予測タスクにおいて性能に悪影響を及ぼす。
本稿では,事前学習されたvitsが空間量子化を扱う方法を改善するためのゼロショット法を提案する。
特に,気候力学や信号処理に伝統的に応用される確率共鳴に触発された,サブトケン空間変換による入力画像の摂動から得られた特徴を整理する。
本稿では,事前学習したViTの特徴を効果的に超解き明かし,トークン化によって無視される可能性のある局所的な微細構造をより多く捉えたSRT(Stochastic Resonance Transformer)と呼ぶ。
SRTはどんな層でも、どんなタスクでも適用でき、微調整は不要である。
前者の利点は単眼深度予測に適用した場合に明らかであり,SRT を中間 ViT に適用した場合,RMSE と RMSE-log の計測値で平均4.7%,14.9% の精度でベースラインモデルより優れていることを示す。
半教師付きビデオオブジェクトのセグメンテーションに適用すると、SRTはすべてのメトリクスのベースラインモデルを一様に改善し、F&Jスコアの平均2.4%も改善する。
さらに, この量子化成果物は, 自己蒸留によってある程度減衰できることを示した。
教師なしの正弦領域分割では、SRTはmaxF測定値の平均2.1%でベースモデルを改善する。
最後に、SRTはピクセルレベルの機能で純粋に動作しているにもかかわらず、画像検索やオブジェクト発見といったナンセンスな予測タスクに一般化し、それぞれ2.6%と1.0%の改善を実現している。
関連論文リスト
- Denoising Vision Transformers [43.319396123318676]
ビジョントランスフォーマー(ViT)はグリッドのような成果物を示し、下流タスクにおけるViTのパフォーマンスを著しく損なう。
本稿では,全VTに適用可能な新しいノイズモデルを提案する。
未処理のViT出力から直接アーチファクトフリーの機能を予測するための学習可能なデノイザを導入する。
論文 参考訳(メタデータ) (2024-01-05T18:59:52Z) - TPC-ViT: Token Propagation Controller for Efficient Vision Transformer [6.341420717393898]
ビジョントランス (ViT) は様々なコンピュータビジョンタスクにおいて有望な結果を得た。
この課題に対処するために、段階的なトークン削減を採用する以前のアプローチでは、ひとつのレイヤにおけるトークンの冗長性は、以下のすべてのレイヤにおける冗長性を意味すると仮定されている。
本稿では、2つの異なるトークン分布を組み込んだ新しいトークン伝搬制御器(TPC)を提案する。
論文 参考訳(メタデータ) (2024-01-03T00:10:33Z) - Hierarchical Side-Tuning for Vision Transformers [34.55731467838914]
本稿では,種々の下流タスクへのVT転送を効果的に行う新しいPETL手法である階層側チューニング(HST)を提案する。
HSTを検証するために,分類,オブジェクト検出,インスタンスセグメンテーション,セマンティックセグメンテーションなど,多様な視覚的タスクを含む広範な実験を行った。
VTAB-1kでは,0.78Mパラメータを微調整しながら,最先端の平均Top-1精度76.4%を実現した。
論文 参考訳(メタデータ) (2023-10-09T04:16:35Z) - Spectral Enhanced Rectangle Transformer for Hyperspectral Image
Denoising [64.11157141177208]
ハイパースペクトル画像の空間的およびスペクトル的相関をモデル化するスペクトル拡張矩形変換器を提案する。
前者に対しては、長方形自己アテンションを水平および垂直に利用し、空間領域における非局所的類似性を捉える。
後者のために,空間スペクトル立方体の大域的低ランク特性を抽出し,雑音を抑制するスペクトル拡張モジュールを設計する。
論文 参考訳(メタデータ) (2023-04-03T09:42:13Z) - DDS2M: Self-Supervised Denoising Diffusion Spatio-Spectral Model for
Hyperspectral Image Restoration [103.79030498369319]
ハイパースペクトル画像復元のための自己教師付き拡散モデルを提案する。
textttDDS2Mは、既存の拡散法と比較して、より強力な一般化能力を持っている。
HSIのノイズ除去、ノイズ除去、様々なHSIの超解像実験は、既存のタスク固有状態よりもtextttDDS2Mの方が優れていることを示した。
論文 参考訳(メタデータ) (2023-03-12T14:57:04Z) - Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z) - Is Attention All NeRF Needs? [103.51023982774599]
Generalizable NeRF Transformer (GNT) は、ソースビューから高速にNeRF(Neural Radiance Fields)を効率的に再構築する、純粋で統一されたトランスフォーマーベースのアーキテクチャである。
GNTは、2つのトランスフォーマーベースのステージをカプセル化することにより、一般化可能なニューラルシーン表現とレンダリングを実現する。
論文 参考訳(メタデータ) (2022-07-27T05:09:54Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。