論文の概要: SparseFormer: Sparse Visual Recognition via Limited Latent Tokens
- arxiv url: http://arxiv.org/abs/2304.03768v1
- Date: Fri, 7 Apr 2023 17:59:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-10 11:20:54.817204
- Title: SparseFormer: Sparse Visual Recognition via Limited Latent Tokens
- Title(参考訳): SparseFormer: 限定潜在トークンによるスパース視覚認識
- Authors: Ziteng Gao, Zhan Tong, Limin Wang, Mike Zheng Shou
- Abstract要約: 本稿では,人間のスパース認識をエンドツーエンドに模倣する新しい手法であるスパースホルダーを提案する。
SparseFormerは画像空間上の高密度な操作の多くを回避し、計算コストを大幅に削減する。
ImageNet分類ベンチマークデータセットの実験では、SparseFormerは標準モデルや確立されたモデルと同等のパフォーマンスを達成している。
- 参考スコア(独自算出の注目度): 30.494412497158237
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human visual recognition is a sparse process, where only a few salient visual
cues are attended to rather than traversing every detail uniformly. However,
most current vision networks follow a dense paradigm, processing every single
visual unit (e.g,, pixel or patch) in a uniform manner. In this paper, we
challenge this dense paradigm and present a new method, coined SparseFormer, to
imitate human's sparse visual recognition in an end-to-end manner. SparseFormer
learns to represent images using a highly limited number of tokens (down to 49)
in the latent space with sparse feature sampling procedure instead of
processing dense units in the original pixel space. Therefore, SparseFormer
circumvents most of dense operations on the image space and has much lower
computational costs. Experiments on the ImageNet classification benchmark
dataset show that SparseFormer achieves performance on par with canonical or
well-established models while offering better accuracy-throughput tradeoff.
Moreover, the design of our network can be easily extended to the video
classification with promising performance at lower computational costs. We hope
that our work can provide an alternative way for visual modeling and inspire
further research on sparse neural architectures. The code will be publicly
available at https://github.com/showlab/sparseformer
- Abstract(参考訳): 人間の視覚認識はまばらなプロセスであり、細部を一様に横断するよりは、わずかな視覚的な手がかりしか参加しない。
しかし、現在のビジョンネットワークのほとんどが密集したパラダイムに従っており、すべての視覚単位(ピクセルやパッチなど)を統一的に処理している。
本稿では,この密集したパラダイムに挑戦し,人間のスパース認識をエンドツーエンドで模倣する新しい手法であるスパースフォーマーを提案する。
sparseformerは、非常に限られた数のトークン(49まで)を使って、元のピクセル空間で密度の高い単位を処理するのではなく、スパース特徴サンプリング手順で画像を表現することを学ぶ。
したがって、スパースフォーマーは画像空間上の密接な操作のほとんどを回避し、計算コストを大幅に下げる。
ImageNet分類ベンチマークデータセットの実験では、SparseFormerは標準モデルや確立されたモデルと同等のパフォーマンスを実現し、精度とスループットのトレードオフが向上している。
さらに,ネットワークの設計をより少ない計算コストで有望な性能でビデオ分類に容易に拡張することができる。
私たちの研究が視覚モデリングの代替手段を提供し、スパースニューラルネットワークアーキテクチャに関するさらなる研究を刺激することを期待しています。
コードはhttps://github.com/showlab/sparseformerで公開される。
関連論文リスト
- Bootstrapping SparseFormers from Vision Foundation Models [24.029898310518046]
我々は、VTベースの視覚基盤モデルからSparseFormersをシンプルで効率的な方法でブートストラップすることを提案する。
ブートストラップ付きunimodal SparseFormerは、49トークンしか持たないIN-1Kで84.9%の精度に達することができる。
CLIP-bootstrapped SparseFormersは、単語を見ることなく出力空間を言語に合わせることで、マルチモーダルな大規模言語モデルにおける効率的な視覚エンコーダとして機能する。
論文 参考訳(メタデータ) (2023-12-04T16:04:41Z) - Learning Semantic Segmentation with Query Points Supervision on Aerial Images [57.09251327650334]
セマンティックセグメンテーションアルゴリズムを学習するための弱教師付き学習アルゴリズムを提案する。
提案手法は正確なセマンティックセグメンテーションを行い,手作業のアノテーションに要するコストと時間を大幅に削減することで効率を向上する。
論文 参考訳(メタデータ) (2023-09-11T14:32:04Z) - HQ3DAvatar: High Quality Controllable 3D Head Avatar [65.70885416855782]
本稿では,高フォトリアリスティックなデジタルヘッドアバターを構築するための新しいアプローチを提案する。
本手法はニューラルネットワークによってパラメータ化された暗黙関数を用いて標準空間を学習する。
テスト時,本手法は単眼のRGBビデオによって駆動される。
論文 参考訳(メタデータ) (2023-03-25T13:56:33Z) - STAIR: Learning Sparse Text and Image Representation in Grounded Tokens [84.14528645941128]
疎結合なセマンティック表現を構築することは、密度の高いプレゼンテーションと同程度、あるいはそれ以上に強力であることを示す。
CLIPモデルを拡張してスパーステキストと画像表現(STAIR)を構築し、画像とテキストをスパーストークン空間にマッピングする。
CLIPモデルでは、+4.9%$と+4.3%$絶対リコール@1の改善で大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2023-01-30T17:21:30Z) - Glance and Focus Networks for Dynamic Visual Recognition [36.26856080976052]
画像認識問題を,人間の視覚系を模倣した逐次的粗い特徴学習プロセスとして定式化する。
提案したGlance and Focus Network(GFNet)は,まず低解像度スケールで入力画像の迅速なグローバルな表現を抽出し,その後,より微細な特徴を学習するために,一連の局所的(小さな)領域に戦略的に参画する。
これは、iPhone XS Max上の高効率のMobileNet-V3の平均遅延を、精度を犠牲にすることなく1.3倍削減する。
論文 参考訳(メタデータ) (2022-01-09T14:00:56Z) - Sparse Spatial Transformers for Few-Shot Learning [6.271261279657655]
限られたデータから学ぶことは、データの不足によってトレーニングされたモデルの一般化が不十分になるため、難しい。
スパース空間トランスと呼ばれる新しいトランスを用いたニューラルネットワークアーキテクチャを提案する。
本手法はタスク関連機能を見つけ,タスク関連機能を抑制する。
論文 参考訳(メタデータ) (2021-09-27T10:36:32Z) - AugNet: End-to-End Unsupervised Visual Representation Learning with
Image Augmentation [3.6790362352712873]
我々は、未ラベル画像の集合から画像特徴を学習するための新しいディープラーニングトレーニングパラダイムであるAugNetを提案する。
実験により,低次元空間における画像の表現が可能であることを実証した。
多くのディープラーニングベースの画像検索アルゴリズムとは異なり、我々のアプローチは外部アノテーション付きデータセットへのアクセスを必要としない。
論文 参考訳(メタデータ) (2021-06-11T09:02:30Z) - Cherry-Picking Gradients: Learning Low-Rank Embeddings of Visual Data
via Differentiable Cross-Approximation [53.95297550117153]
本稿では,大規模な視覚データテンソルの処理を行うエンドツーエンドのトレーニング可能なフレームワークを提案する。
提案手法は大規模多次元グリッドデータや,大規模受容領域上のコンテキストを必要とするタスクに特に有用である。
論文 参考訳(メタデータ) (2021-05-29T08:39:57Z) - Impression Space from Deep Template Network [72.86001835304185]
トレーニングされた畳み込みニューラルネットワークは、入力イメージを“記憶”する能力を持っていることを示す。
本稿では,既訓練の既訓練ネットワーク上でのEmphImpression Spaceを確立するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-10T15:29:33Z) - Neural Sparse Representation for Image Restoration [116.72107034624344]
スパース符号化に基づく画像復元モデルの堅牢性と効率に触発され,深部ネットワークにおけるニューロンの空間性について検討した。
本手法は,隠れたニューロンに対する空間的制約を構造的に強制する。
実験により、複数の画像復元タスクのためのディープニューラルネットワークではスパース表現が不可欠であることが示されている。
論文 参考訳(メタデータ) (2020-06-08T05:15:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。