論文の概要: Token Recycling for Efficient Sequential Inference with Vision
Transformers
- arxiv url: http://arxiv.org/abs/2311.15335v1
- Date: Sun, 26 Nov 2023 15:39:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 18:07:10.150014
- Title: Token Recycling for Efficient Sequential Inference with Vision
Transformers
- Title(参考訳): 視覚変換器を用いた効率的なシーケンス推論のためのトークンリサイクル
- Authors: Jan Olszewski and Dawid Rymarczyk and Piotr W\'ojcik and Mateusz Pach
and Bartosz Zieli\'nski
- Abstract要約: 視覚変換器(ViT)は、不足値の計算を必要としないため、不完全な入力を処理するために畳み込みニューラルネットワークをバイパスする。
ViTは、新しいシーケンシャル情報が到着するたびにフルフォワードパスを実行するため、計算的に非効率である。
我々は,任意のアーキテクチャで使用可能なViT推論のためのToken Recycling (TORE)を導入している。
- 参考スコア(独自算出の注目度): 3.9906557901972897
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (ViTs) overpass Convolutional Neural Networks in
processing incomplete inputs because they do not require the imputation of
missing values. Therefore, ViTs are well suited for sequential decision-making,
e.g. in the Active Visual Exploration problem. However, they are
computationally inefficient because they perform a full forward pass each time
a piece of new sequential information arrives.
To reduce this computational inefficiency, we introduce the TOken REcycling
(TORE) modification for the ViT inference, which can be used with any
architecture. TORE divides ViT into two parts, iterator and aggregator. An
iterator processes sequential information separately into midway tokens, which
are cached. The aggregator processes midway tokens jointly to obtain the
prediction. This way, we can reuse the results of computations made by
iterator.
Except for efficient sequential inference, we propose a complementary
training policy, which significantly reduces the computational burden
associated with sequential decision-making while achieving state-of-the-art
accuracy.
- Abstract(参考訳): 視覚変換器(ViT)は、不足値の計算を必要としないため、不完全な入力を処理するために畳み込みニューラルネットワークをバイパスする。
したがって、ViTは、例えばActive Visual Exploration問題のようなシーケンシャルな意思決定に適している。
しかし、新しいシーケンシャル情報が到着するたびにフルフォワードパスを実行するため、計算的に非効率である。
この計算効率を抑えるために,任意のアーキテクチャで使用可能なViT推論のTOken Recycling (TORE)修正を導入する。
TOREはViTをイテレータとアグリゲータという2つの部分に分割する。
イテレータはシーケンシャル情報を中間トークンに別々に処理し、キャッシュする。
アグリゲータは中間トークンを共同で処理して予測を得る。
これにより、イテレーターによる計算結果を再利用することができる。
効率的な逐次推論を除いては,逐次的意思決定に伴う計算負担を大幅に軽減し,最先端の精度を保ちながら補完的な学習方針を提案する。
関連論文リスト
- Improving the Performance of Echo State Networks Through Feedback [0.0]
非線形力学系を用いた貯留層計算は、ニューラルネットワークに代わる費用対効果を提供する。
ESNの潜在的な欠点は、固定された貯水池が特定の問題に必要な複雑さを提供していないことである。
本稿では, 貯留状態の一部の成分を入力を介してネットワークにフィードバックすることにより, 所定のESNの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-12-23T02:34:50Z) - GTP-ViT: Efficient Vision Transformers via Graph-based Token Propagation [30.343504537684755]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの分野に革命をもたらしたが、リソースに制約のあるデバイスへの展開は依然として困難である。
ViTを高速化するために、トークンのプルーニングとトークンのマージアプローチが開発され、計算に関わるトークンの数を減らすことを目的としている。
本稿では,効率的なViTのためのモデル効率と情報保存のバランスをとることの課題を解決するために,グラフベースの新しいToken Propagation(GTP)手法を提案する。
論文 参考訳(メタデータ) (2023-11-06T11:14:19Z) - Incrementally-Computable Neural Networks: Efficient Inference for
Dynamic Inputs [75.40636935415601]
ディープラーニングは、センサーデータやユーザ入力などの動的入力を効率的に処理するという課題に直面していることが多い。
インクリメンタルな計算アプローチを採用し、入力の変化に応じて計算を再利用する。
本稿では,この手法をトランスフォーマーアーキテクチャに適用し,修正入力の分数に比例した複雑性を持つ効率的なインクリメンタル推論アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-27T16:30:27Z) - Segmented Recurrent Transformer: An Efficient Sequence-to-Sequence Model [10.473819332984005]
分割された(局所的な)注意と再帰的な注意を結合した分節再帰変圧器(SRformer)を提案する。
提案モデルでは,分割変圧器よりも高いROUGE1スコアを6-22%で達成し,他の再帰変圧器よりも優れている。
論文 参考訳(メタデータ) (2023-05-24T03:47:22Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - TAPIR: Learning Adaptive Revision for Incremental Natural Language
Understanding with a Two-Pass Model [14.846377138993645]
インクリメンタル処理のための最近のニューラルネットワークベースのアプローチは、主にRNNまたはTransformerを使用する。
より長い入力プレフィックスを繰り返し通過する再起動/インクリメンタルインターフェースは、部分的な出力を得るために使用でき、更新する機能を提供する。
本稿では、AdaPtIve Revision(TAPIR)の2パスモデルを提案し、適応的な修正ポリシーを学ぶための漸進的な監視信号を得る方法を提案する。
論文 参考訳(メタデータ) (2023-05-18T09:58:19Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z) - Temporal Latent Bottleneck: Synthesis of Fast and Slow Processing
Mechanisms in Sequence Learning [85.95599675484341]
リカレントニューラルネットワークは、時間的に圧縮された表現の学習に対して強い誘導バイアスを持つ。
変換器は時間的に圧縮された表現を学習する際の帰納的バイアスがほとんどない。
論文 参考訳(メタデータ) (2022-05-30T00:12:33Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z) - Accelerating Feedforward Computation via Parallel Nonlinear Equation
Solving [106.63673243937492]
ニューラルネットワークの評価や自己回帰モデルからのサンプリングなどのフィードフォワード計算は、機械学習においてユビキタスである。
本稿では,非線形方程式の解法としてフィードフォワード計算の課題を定式化し,ジャコビ・ガウス・シーデル固定点法とハイブリッド法を用いて解を求める。
提案手法は, 並列化可能な繰り返し回数の削減(あるいは等値化)により, 元のフィードフォワード計算と全く同じ値が与えられることを保証し, 十分な並列化計算能力を付与する。
論文 参考訳(メタデータ) (2020-02-10T10:11:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。