論文の概要: Token Recycling for Efficient Sequential Inference with Vision
Transformers
- arxiv url: http://arxiv.org/abs/2311.15335v1
- Date: Sun, 26 Nov 2023 15:39:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 18:07:10.150014
- Title: Token Recycling for Efficient Sequential Inference with Vision
Transformers
- Title(参考訳): 視覚変換器を用いた効率的なシーケンス推論のためのトークンリサイクル
- Authors: Jan Olszewski and Dawid Rymarczyk and Piotr W\'ojcik and Mateusz Pach
and Bartosz Zieli\'nski
- Abstract要約: 視覚変換器(ViT)は、不足値の計算を必要としないため、不完全な入力を処理するために畳み込みニューラルネットワークをバイパスする。
ViTは、新しいシーケンシャル情報が到着するたびにフルフォワードパスを実行するため、計算的に非効率である。
我々は,任意のアーキテクチャで使用可能なViT推論のためのToken Recycling (TORE)を導入している。
- 参考スコア(独自算出の注目度): 3.9906557901972897
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (ViTs) overpass Convolutional Neural Networks in
processing incomplete inputs because they do not require the imputation of
missing values. Therefore, ViTs are well suited for sequential decision-making,
e.g. in the Active Visual Exploration problem. However, they are
computationally inefficient because they perform a full forward pass each time
a piece of new sequential information arrives.
To reduce this computational inefficiency, we introduce the TOken REcycling
(TORE) modification for the ViT inference, which can be used with any
architecture. TORE divides ViT into two parts, iterator and aggregator. An
iterator processes sequential information separately into midway tokens, which
are cached. The aggregator processes midway tokens jointly to obtain the
prediction. This way, we can reuse the results of computations made by
iterator.
Except for efficient sequential inference, we propose a complementary
training policy, which significantly reduces the computational burden
associated with sequential decision-making while achieving state-of-the-art
accuracy.
- Abstract(参考訳): 視覚変換器(ViT)は、不足値の計算を必要としないため、不完全な入力を処理するために畳み込みニューラルネットワークをバイパスする。
したがって、ViTは、例えばActive Visual Exploration問題のようなシーケンシャルな意思決定に適している。
しかし、新しいシーケンシャル情報が到着するたびにフルフォワードパスを実行するため、計算的に非効率である。
この計算効率を抑えるために,任意のアーキテクチャで使用可能なViT推論のTOken Recycling (TORE)修正を導入する。
TOREはViTをイテレータとアグリゲータという2つの部分に分割する。
イテレータはシーケンシャル情報を中間トークンに別々に処理し、キャッシュする。
アグリゲータは中間トークンを共同で処理して予測を得る。
これにより、イテレーターによる計算結果を再利用することができる。
効率的な逐次推論を除いては,逐次的意思決定に伴う計算負担を大幅に軽減し,最先端の精度を保ちながら補完的な学習方針を提案する。
関連論文リスト
- Ring Attention with Blockwise Transformers for Near-Infinite Context [88.61687950039662]
本稿では,複数のデバイスにまたがって長いシーケンスを分散するために,ブロックワイドな自己注意とフィードフォワードの計算を利用する,ブロックワイドトランスフォーマーを用いたリングアテンション(リングアテンション)を提案する。
提案手法では,先行メモリ効率の変換器で達成可能なものよりも,デバイス数倍のシーケンスのトレーニングと推論が可能となる。
論文 参考訳(メタデータ) (2023-10-03T08:44:50Z) - InvKA: Gait Recognition via Invertible Koopman Autoencoder [15.718065380333718]
ほとんどの歩行認識法は、解釈可能性の低下と高い計算コストに悩まされている。
解釈性を改善するために,クープマン作用素理論に基づく埋め込み空間における歩行特徴について検討する。
アルゴリズムの計算コストを削減するため,モデルサイズを削減し,畳み込み層を除去するために可逆的オートエンコーダを用いる。
論文 参考訳(メタデータ) (2023-09-26T08:53:54Z) - Eventful Transformers: Leveraging Temporal Redundancy in Vision
Transformers [27.029600581635957]
本稿では,時間とともに大きく変化したトークンのみを識別・再処理する手法について述べる。
ビデオオブジェクト検出のための大規模データセット(ImageNet VID)と行動認識(EPIC-Kitchens 100)について評価を行った。
論文 参考訳(メタデータ) (2023-08-25T17:10:12Z) - Segmented Recurrent Transformer: An Efficient Sequence-to-Sequence Model [10.473819332984005]
分割された(局所的な)注意と再帰的な注意を結合した分節再帰変圧器(SRformer)を提案する。
提案モデルでは,分割変圧器よりも高いROUGE1スコアを6-22%で達成し,他の再帰変圧器よりも優れている。
論文 参考訳(メタデータ) (2023-05-24T03:47:22Z) - Skip-Attention: Improving Vision Transformers by Paying Less Attention [55.47058516775423]
視覚計算変換器(ViT)は、すべての層で高価な自己注意操作を使用する。
また,SkipAtを提案する。SkipAtは,先行層から自己注意を再利用して1層以上の注意を近似する手法である。
本稿では,画像の分類と自己教師型学習,ADE20Kのセマンティックセグメンテーション,SIDDの画像デノイング,DAVISのビデオデノナイズにおける手法の有効性を示す。
論文 参考訳(メタデータ) (2023-01-05T18:59:52Z) - Temporal Latent Bottleneck: Synthesis of Fast and Slow Processing
Mechanisms in Sequence Learning [85.95599675484341]
リカレントニューラルネットワークは、時間的に圧縮された表現の学習に対して強い誘導バイアスを持つ。
変換器は時間的に圧縮された表現を学習する際の帰納的バイアスがほとんどない。
論文 参考訳(メタデータ) (2022-05-30T00:12:33Z) - Token Pooling in Vision Transformers [37.11990688046186]
視覚変換器では、自己注意は主要なボトルネックではなく、例えば、計算の80%以上が完全に接続された層に費やされている。
本稿では,画像と中間トークン表現の冗長性を効果的に活用するトークンダウンサンプリング手法Token Poolingを提案する。
実験の結果,Token Poolingは最先端のダウンサンプリングに対する費用対精度のトレードオフを大幅に改善することがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:22:50Z) - TEACHTEXT: CrossModal Generalized Distillation for Text-Video Retrieval [103.85002875155551]
本研究では,大規模言語前訓練を利用した一般化蒸留法TeachTextを提案する。
提案手法をビデオ側モダリティに拡張し,テスト時に使用するモダリティの数を効果的に削減できることを示す。
提案手法は,いくつかのビデオ検索ベンチマークの精度を著しく向上させ,テスト時の計算オーバーヘッドを増加させない。
論文 参考訳(メタデータ) (2021-04-16T17:55:28Z) - Decoupling Representation Learning from Reinforcement Learning [89.82834016009461]
Augmented Temporal Contrast (ATC) と呼ばれる教師なし学習タスクを導入する。
ATCは畳み込みエンコーダを訓練し、短い時間差で分離された観測ペアを関連付ける。
オンラインRL実験では,ATCマッチを用いたエンコーダのトレーニングや,エンド・ツー・エンドのRLよりも優れていた。
論文 参考訳(メタデータ) (2020-09-14T19:11:13Z) - Funnel-Transformer: Filtering out Sequential Redundancy for Efficient
Language Processing [112.2208052057002]
本稿では,隠れ状態の列を短く圧縮するFunnel-Transformerを提案する。
Funnel-TransformerはFLOPに匹敵する数が少ないため、様々なシーケンスレベルの予測タスクにおいて標準のTransformerよりも優れている。
論文 参考訳(メタデータ) (2020-06-05T05:16:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。