論文の概要: Sub-token ViT Embedding via Stochastic Resonance Transformers
- arxiv url: http://arxiv.org/abs/2310.03967v1
- Date: Fri, 6 Oct 2023 01:53:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-10 03:43:04.183687
- Title: Sub-token ViT Embedding via Stochastic Resonance Transformers
- Title(参考訳): 確率共振変換器によるサブトークン ViT 埋め込み
- Authors: Dong Lao, Yangchao Wu, Tian Yu Liu, Alex Wong, Stefano Soatto
- Abstract要約: 本稿では、事前学習したViTが空間量子化をどのように扱うかを改善する方法を提案する。
SRT(Stochastic Resonance Transformer)と呼ぶ。
SRTはどんな層でも、どんなタスクでも適用でき、微調整は不要である。
- 参考スコア(独自算出の注目度): 54.84390340877745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We discover the presence of quantization artifacts in Vision Transformers
(ViTs), which arise due to the image tokenization step inherent in these
architectures. These artifacts result in coarsely quantized features, which
negatively impact performance, especially on downstream dense prediction tasks.
We present a zero-shot method to improve how pre-trained ViTs handle spatial
quantization. In particular, we propose to ensemble the features obtained from
perturbing input images via sub-token spatial translations, inspired by
Stochastic Resonance, a method traditionally applied to climate dynamics and
signal processing. We term our method ``Stochastic Resonance Transformer"
(SRT), which we show can effectively super-resolve features of pre-trained
ViTs, capturing more of the local fine-grained structures that might otherwise
be neglected as a result of tokenization. SRT can be applied at any layer, on
any task, and does not require any fine-tuning. The advantage of the former is
evident when applied to monocular depth prediction, where we show that
ensembling model outputs are detrimental while applying SRT on intermediate ViT
features outperforms the baseline models by an average of 4.7% and 14.9% on the
RMSE and RMSE-log metrics across three different architectures. When applied to
semi-supervised video object segmentation, SRT also improves over the baseline
models uniformly across all metrics, and by an average of 2.4% in F&J score. We
further show that these quantization artifacts can be attenuated to some extent
via self-distillation. On the unsupervised salient region segmentation, SRT
improves upon the base model by an average of 2.1% on the maxF metric. Finally,
despite operating purely on pixel-level features, SRT generalizes to non-dense
prediction tasks such as image retrieval and object discovery, yielding
consistent improvements of up to 2.6% and 1.0% respectively.
- Abstract(参考訳): 視覚変換器(ViT)における量子化アーティファクトの存在は,これらのアーキテクチャに固有の画像トークン化ステップによって生じる。
これらの成果物は粗く定量化され、特に下流の密集した予測タスクにおいて性能に悪影響を及ぼす。
本稿では,事前学習されたvitsが空間量子化を扱う方法を改善するためのゼロショット法を提案する。
特に,気候力学や信号処理に伝統的に応用される確率共鳴に触発された,サブトケン空間変換による入力画像の摂動から得られた特徴を整理する。
本稿では,事前学習したViTの特徴を効果的に超解き明かし,トークン化によって無視される可能性のある局所的な微細構造をより多く捉えたSRT(Stochastic Resonance Transformer)と呼ぶ。
SRTはどんな層でも、どんなタスクでも適用でき、微調整は不要である。
前者の利点は単眼深度予測に適用した場合に明らかであり,SRT を中間 ViT に適用した場合,RMSE と RMSE-log の計測値で平均4.7%,14.9% の精度でベースラインモデルより優れていることを示す。
半教師付きビデオオブジェクトのセグメンテーションに適用すると、SRTはすべてのメトリクスのベースラインモデルを一様に改善し、F&Jスコアの平均2.4%も改善する。
さらに, この量子化成果物は, 自己蒸留によってある程度減衰できることを示した。
教師なしの正弦領域分割では、SRTはmaxF測定値の平均2.1%でベースモデルを改善する。
最後に、SRTはピクセルレベルの機能で純粋に動作しているにもかかわらず、画像検索やオブジェクト発見といったナンセンスな予測タスクに一般化し、それぞれ2.6%と1.0%の改善を実現している。
関連論文リスト
- White-Box Transformers via Sparse Rate Reduction: Compression Is All There Is? [27.58916930770997]
数学的に完全に解釈可能なCRATEという,ホワイトボックストランスフォーマーのようなディープネットワークアーキテクチャのファミリーを示す。
実験によると、これらのネットワークは単純さにもかかわらず、大規模な実世界の画像とテキストデータセットの表現を圧縮し、分散化することを学習している。
論文 参考訳(メタデータ) (2023-11-22T02:23:32Z) - AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。
本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。
提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文 参考訳(メタデータ) (2023-11-02T12:48:43Z) - White-Box Transformers via Sparse Rate Reduction [25.51855431031564]
数学的に完全に解釈可能な,ホワイトボックストランスフォーマーのようなディープネットワークアーキテクチャのファミリーを示す。
実験の結果、これらのネットワークは実際に設計した目的を最適化することを学習していることがわかった。
論文 参考訳(メタデータ) (2023-06-01T20:28:44Z) - Spectral Enhanced Rectangle Transformer for Hyperspectral Image
Denoising [64.11157141177208]
ハイパースペクトル画像の空間的およびスペクトル的相関をモデル化するスペクトル拡張矩形変換器を提案する。
前者に対しては、長方形自己アテンションを水平および垂直に利用し、空間領域における非局所的類似性を捉える。
後者のために,空間スペクトル立方体の大域的低ランク特性を抽出し,雑音を抑制するスペクトル拡張モジュールを設計する。
論文 参考訳(メタデータ) (2023-04-03T09:42:13Z) - Making Vision Transformers Efficient from A Token Sparsification View [26.42498120556985]
本稿では,グローバル・ローカル・ビジョン・トランスフォーマのための新しいセマンティック・トークンViT(STViT)を提案する。
提案手法は,対象検出やインスタンスセグメンテーションにおける元のネットワークと比較して,30%以上のFLOPを削減できる。
さらに,STViTに基づいて詳細な空間情報を復元するためのSTViT-R(ecover)ネットワークを設計し,下流タスクに有効である。
論文 参考訳(メタデータ) (2023-03-15T15:12:36Z) - SegViT: Semantic Segmentation with Plain Vision Transformers [91.50075506561598]
意味的セグメンテーションのための平易な視覚変換器(ViT)の能力について検討する。
本研究では,学習可能なクラストークンの集合と空間特徴マップの類似性をセグメンテーションマスクに転送するATMモジュールを提案する。
実験の結果,ATMモジュールを用いたSegVitは,通常のViTバックボーンよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-10-12T00:30:26Z) - Is Attention All NeRF Needs? [103.51023982774599]
Generalizable NeRF Transformer (GNT) は、ソースビューから高速にNeRF(Neural Radiance Fields)を効率的に再構築する、純粋で統一されたトランスフォーマーベースのアーキテクチャである。
GNTは、2つのトランスフォーマーベースのステージをカプセル化することにより、一般化可能なニューラルシーン表現とレンダリングを実現する。
論文 参考訳(メタデータ) (2022-07-27T05:09:54Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。