論文の概要: Token Turing Machines are Efficient Vision Models
- arxiv url: http://arxiv.org/abs/2409.07613v2
- Date: Mon, 20 Jan 2025 15:59:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:17:38.317589
- Title: Token Turing Machines are Efficient Vision Models
- Title(参考訳): トーケンチューリングマシンは効率的な視覚モデルである
- Authors: Purvish Jajal, Nick John Eliopoulos, Benjamin Shiue-Hal Chou, George K. Thiravathukal, James C. Davis, Yung-Hsiang Lu,
- Abstract要約: ViTTM(Vision Token Turing Machines)を提案する。
ViTTMは、画像分類やセグメンテーションのような、連続しないコンピュータビジョンタスクのために設計されている。
- 参考スコア(独自算出の注目度): 2.8674240660437778
- License:
- Abstract: We propose Vision Token Turing Machines (ViTTM), an efficient, low-latency, memory-augmented Vision Transformer (ViT). Our approach builds on Neural Turing Machines and Token Turing Machines, which were applied to NLP and sequential visual understanding tasks. ViTTMs are designed for non-sequential computer vision tasks such as image classification and segmentation. Our model creates two sets of tokens: process tokens and memory tokens; process tokens pass through encoder blocks and read-write from memory tokens at each encoder block in the network, allowing them to store and retrieve information from memory. By ensuring that there are fewer process tokens than memory tokens, we are able to reduce the inference time of the network while maintaining its accuracy. On ImageNet-1K, the state-of-the-art ViT-B has median latency of 529.5ms and 81.0% accuracy, while our ViTTM-B is 56% faster (234.1ms), with 2.4 times fewer FLOPs, with an accuracy of 82.9%. On ADE20K semantic segmentation, ViT-B achieves 45.65mIoU at 13.8 frame-per-second (FPS) whereas our ViTTM-B model acheives a 45.17 mIoU with 26.8 FPS (+94%).
- Abstract(参考訳): 高速・低レイテンシ・メモリ拡張型ビジョントランス (ViT) であるビジョントークンチューリングマシン (ViTTM) を提案する。
提案手法は,NLPおよび逐次視覚理解タスクに適用したニューラルチューリングマシンとトケンチューリングマシンをベースとした。
ViTTMは、画像分類やセグメンテーションのような、連続しないコンピュータビジョンタスクのために設計されている。
プロセストークンはエンコーダブロックを通り、ネットワーク内の各エンコーダブロックのメモリトークンから読み書きされ、メモリから情報を格納および取得することができる。
メモリトークンよりも少ないプロセストークンを確保することで、その正確性を保ちながら、ネットワークの推論時間を短縮できるのです。
ImageNet-1Kでは、最先端のViT-Bは529.5ms、精度81.0%であり、VTTM-Bは56%(234.1ms)、FLOPは2.4倍、精度82.9%である。
ADE20Kセマンティックセグメンテーションでは、VT-Bは毎秒13.8フレームで45.65mIoUを達成するが、VTTM-Bモデルは26.8FPS(+94%)の45.17mIoUを達成している。
関連論文リスト
- Token Pruning using a Lightweight Background Aware Vision Transformer [0.6856888934092934]
トークンプルーニングは、各トークンの重要基準に基づいて、ViTへの入力トークンの数を減少させる。
バックグラウンドトークンは、ViTベースのオブジェクト検出器に供給する前に、完全にまたは部分的にプルーニングすることができる。
また,YOLOSのプリプロセッサとして2層BAViT-小モデルを用いて,mAPを3%減少させることなく,スループットを30% - 40%向上させることができることを示した。
論文 参考訳(メタデータ) (2024-10-12T01:44:54Z) - Dynamic neural network with memristive CIM and CAM for 2D and 3D vision [57.6208980140268]
本稿では,memristor を用いた意味記憶に基づく動的ニューラルネットワーク (DNN) を提案する。
ネットワークは、受信したデータとセマンティックベクターとして格納された過去の経験を関連付ける。
MNISTとModelNetのデータセットから画像と3Dポイントを分類するために、ResNetとPointNet++の40nmのmemristorマクロを用いて、我々の共同設計を検証する。
論文 参考訳(メタデータ) (2024-07-12T04:55:57Z) - ViT-1.58b: Mobile Vision Transformers in the 1-bit Era [27.74281483852495]
本稿では、メモリと計算オーバーヘッドを大幅に削減する新しい1.58ビット量子化ViTモデルViT-1.58bを紹介する。
CIFAR-10 と ImageNet-1k の実験では、ViT-1.58b は完全精度の Vit に匹敵する精度を維持している。
論文 参考訳(メタデータ) (2024-06-26T04:01:19Z) - Accelerating Transformers with Spectrum-Preserving Token Merging [43.463808781808645]
PiToMeは、エネルギースコアと呼ばれる追加のメトリックを使用して、情報トークンの保存を優先する。
実験の結果,PiToMeはベースモデルの40~60%のFLOPから保存されていた。
論文 参考訳(メタデータ) (2024-05-25T09:37:01Z) - AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。
本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。
提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文 参考訳(メタデータ) (2023-11-02T12:48:43Z) - Token Turing Machines [53.22971546637947]
Token Turing Machines (TTM) はシーケンシャルな自己回帰型トランスフォーマーモデルである。
我々のモデルは、セミナルなニューラルチューリングマシンにインスパイアされ、以前の履歴を要約するトークンの集合からなる外部メモリを持つ。
論文 参考訳(メタデータ) (2022-11-16T18:59:18Z) - DaViT: Dual Attention Vision Transformers [94.62855697081079]
デュアルアテンションビジョン変換器(DaViT)について紹介する。
DaViTは、計算効率を維持しながらグローバルなコンテキストをキャプチャできるビジョントランスフォーマーアーキテクチャである。
我々は,DaViTが4つのタスクにおける最先端の性能を効率よく計算できることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:59:32Z) - SepViT: Separable Vision Transformer [20.403430632658946]
ビジョントランスフォーマーは、しばしば高い性能を達成するために膨大な計算コストを頼りにしており、リソースに制約のあるデバイスにデプロイするには負担がかかる。
我々は、深度的に分離可能な畳み込みから教訓を導き、そのイデオロギーを模倣して、効率的なトランスフォーマーバックボーン、すなわちSepViTと略される分離可能なビジョントランスを設計する。
SepViTは、深度的に分離可能な自己アテンションを通じて、ウィンドウ内およびウィンドウ間のローカル・グローバル情報インタラクションの実行を支援する。
論文 参考訳(メタデータ) (2022-03-29T09:20:01Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z) - Tokens-to-Token ViT: Training Vision Transformers from Scratch on
ImageNet [128.96032932640364]
視覚課題を解決するために,新しいTokens-To-Token Vision Transformer (T2T-ViT)を提案する。
T2T-ViTは、バニラViTのパラメータ数とMACを200%削減し、ImageNetでスクラッチからトレーニングすると2.5%以上の改善を実現している。
例えば、ResNet50に匹敵するサイズを持つT2T-ViTは、ImageNet上で80.7%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2021-01-28T13:25:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。