Fugu-MT 論文翻訳(概要): Token Recycling for Efficient Sequential Inference with Vision Transformers

論文の概要: Token Recycling for Efficient Sequential Inference with Vision Transformers

arxiv url: http://arxiv.org/abs/2311.15335v1
Date: Sun, 26 Nov 2023 15:39:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-28 18:07:10.150014
Title: Token Recycling for Efficient Sequential Inference with Vision Transformers
Title（参考訳）: 視覚変換器を用いた効率的なシーケンス推論のためのトークンリサイクル
Authors: Jan Olszewski and Dawid Rymarczyk and Piotr W\'ojcik and Mateusz Pach and Bartosz Zieli\'nski
Abstract要約: 視覚変換器(ViT)は、不足値の計算を必要としないため、不完全な入力を処理するために畳み込みニューラルネットワークをバイパスする。 ViTは、新しいシーケンシャル情報が到着するたびにフルフォワードパスを実行するため、計算的に非効率である。我々は,任意のアーキテクチャで使用可能なViT推論のためのToken Recycling (TORE)を導入している。
参考スコア（独自算出の注目度）: 3.9906557901972897
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision Transformers (ViTs) overpass Convolutional Neural Networks in processing incomplete inputs because they do not require the imputation of missing values. Therefore, ViTs are well suited for sequential decision-making, e.g. in the Active Visual Exploration problem. However, they are computationally inefficient because they perform a full forward pass each time a piece of new sequential information arrives. To reduce this computational inefficiency, we introduce the TOken REcycling (TORE) modification for the ViT inference, which can be used with any architecture. TORE divides ViT into two parts, iterator and aggregator. An iterator processes sequential information separately into midway tokens, which are cached. The aggregator processes midway tokens jointly to obtain the prediction. This way, we can reuse the results of computations made by iterator. Except for efficient sequential inference, we propose a complementary training policy, which significantly reduces the computational burden associated with sequential decision-making while achieving state-of-the-art accuracy.
Abstract（参考訳）: 視覚変換器(ViT)は、不足値の計算を必要としないため、不完全な入力を処理するために畳み込みニューラルネットワークをバイパスする。したがって、ViTは、例えばActive Visual Exploration問題のようなシーケンシャルな意思決定に適している。しかし、新しいシーケンシャル情報が到着するたびにフルフォワードパスを実行するため、計算的に非効率である。この計算効率を抑えるために,任意のアーキテクチャで使用可能なViT推論のTOken Recycling (TORE)修正を導入する。 TOREはViTをイテレータとアグリゲータという2つの部分に分割する。イテレータはシーケンシャル情報を中間トークンに別々に処理し、キャッシュする。アグリゲータは中間トークンを共同で処理して予測を得る。これにより、イテレーターによる計算結果を再利用することができる。効率的な逐次推論を除いては,逐次的意思決定に伴う計算負担を大幅に軽減し,最先端の精度を保ちながら補完的な学習方針を提案する。

関連論文リスト

LookWhere? Efficient Visual Recognition by Learning Where to Look and What to See from Self-Supervision [10.461453853510964]
視覚変換器はより大きく、より正確で、計算に費用がかかる。我々は、このコストに対応するために適応計算に切り替え、計算の場所を予測することを学習する。我々のLookWhere法は,高分解能入力を処理せずに,低分解能セレクタと高分解能抽出器を分割する。
論文参考訳（メタデータ） (2025-05-23T15:56:35Z)
Image Coding for Machines via Feature-Preserving Rate-Distortion Optimization [27.97760974010369]
本稿では,特徴量間の距離を歪み指標として,タスク損失に対する圧縮の影響を低減する手法を提案する。我々は、ブロックベースのエンコーダを用いて歪み項を計算可能にするために、RDOの定式化を単純化する。 SSEに基づくRDOと比較して、同じコンピュータビジョンの精度で最大10%のビットレートを節約できる。
論文参考訳（メタデータ） (2025-04-03T02:11:26Z)
FullTransNet: Full Transformer with Local-Global Attention for Video Summarization [16.134118247239527]
本稿では,ビデオ要約のためのFullTransNetというトランスフォーマー型アーキテクチャを提案する。ビデオ要約の代替アーキテクチャとしてエンコーダ・デコーダ構造を持つフルトランスフォーマーを使用する。本モデルでは, Fスコアが54.4%, 63.9%であり, 比較的低い計算量とメモリ要件を維持している。
論文参考訳（メタデータ） (2025-01-01T16:07:27Z)
Ring Attention with Blockwise Transformers for Near-Infinite Context [88.61687950039662]
本稿では,複数のデバイスにまたがって長いシーケンスを分散するために,ブロックワイドな自己注意とフィードフォワードの計算を利用する,ブロックワイドトランスフォーマーを用いたリングアテンション(リングアテンション)を提案する。提案手法では,先行メモリ効率の変換器で達成可能なものよりも,デバイス数倍のシーケンスのトレーニングと推論が可能となる。
論文参考訳（メタデータ） (2023-10-03T08:44:50Z)
InvKA: Gait Recognition via Invertible Koopman Autoencoder [15.718065380333718]
ほとんどの歩行認識法は、解釈可能性の低下と高い計算コストに悩まされている。解釈性を改善するために,クープマン作用素理論に基づく埋め込み空間における歩行特徴について検討する。アルゴリズムの計算コストを削減するため,モデルサイズを削減し,畳み込み層を除去するために可逆的オートエンコーダを用いる。
論文参考訳（メタデータ） (2023-09-26T08:53:54Z)
Eventful Transformers: Leveraging Temporal Redundancy in Vision Transformers [27.029600581635957]
本稿では,時間とともに大きく変化したトークンのみを識別・再処理する手法について述べる。ビデオオブジェクト検出のための大規模データセット(ImageNet VID)と行動認識(EPIC-Kitchens 100)について評価を行った。
論文参考訳（メタデータ） (2023-08-25T17:10:12Z)
Segmented Recurrent Transformer: An Efficient Sequence-to-Sequence Model [10.473819332984005]
分割された(局所的な)注意と再帰的な注意を結合した分節再帰変圧器(SRformer)を提案する。提案モデルでは,分割変圧器よりも高いROUGE1スコアを6-22%で達成し,他の再帰変圧器よりも優れている。
論文参考訳（メタデータ） (2023-05-24T03:47:22Z)
Skip-Attention: Improving Vision Transformers by Paying Less Attention [55.47058516775423]
視覚計算変換器(ViT)は、すべての層で高価な自己注意操作を使用する。また,SkipAtを提案する。SkipAtは,先行層から自己注意を再利用して1層以上の注意を近似する手法である。本稿では,画像の分類と自己教師型学習,ADE20Kのセマンティックセグメンテーション,SIDDの画像デノイング,DAVISのビデオデノナイズにおける手法の有効性を示す。
論文参考訳（メタデータ） (2023-01-05T18:59:52Z)
Temporal Latent Bottleneck: Synthesis of Fast and Slow Processing Mechanisms in Sequence Learning [85.95599675484341]
リカレントニューラルネットワークは、時間的に圧縮された表現の学習に対して強い誘導バイアスを持つ。変換器は時間的に圧縮された表現を学習する際の帰納的バイアスがほとんどない。
論文参考訳（メタデータ） (2022-05-30T00:12:33Z)
Token Pooling in Vision Transformers [37.11990688046186]
視覚変換器では、自己注意は主要なボトルネックではなく、例えば、計算の80%以上が完全に接続された層に費やされている。本稿では,画像と中間トークン表現の冗長性を効果的に活用するトークンダウンサンプリング手法Token Poolingを提案する。実験の結果,Token Poolingは最先端のダウンサンプリングに対する費用対精度のトレードオフを大幅に改善することがわかった。
論文参考訳（メタデータ） (2021-10-08T02:22:50Z)
TEACHTEXT: CrossModal Generalized Distillation for Text-Video Retrieval [103.85002875155551]
本研究では,大規模言語前訓練を利用した一般化蒸留法TeachTextを提案する。提案手法をビデオ側モダリティに拡張し,テスト時に使用するモダリティの数を効果的に削減できることを示す。提案手法は,いくつかのビデオ検索ベンチマークの精度を著しく向上させ,テスト時の計算オーバーヘッドを増加させない。
論文参考訳（メタデータ） (2021-04-16T17:55:28Z)
Decoupling Representation Learning from Reinforcement Learning [89.82834016009461]
Augmented Temporal Contrast (ATC) と呼ばれる教師なし学習タスクを導入する。 ATCは畳み込みエンコーダを訓練し、短い時間差で分離された観測ペアを関連付ける。オンラインRL実験では,ATCマッチを用いたエンコーダのトレーニングや,エンド・ツー・エンドのRLよりも優れていた。
論文参考訳（メタデータ） (2020-09-14T19:11:13Z)
Funnel-Transformer: Filtering out Sequential Redundancy for Efficient Language Processing [112.2208052057002]
本稿では,隠れ状態の列を短く圧縮するFunnel-Transformerを提案する。 Funnel-TransformerはFLOPに匹敵する数が少ないため、様々なシーケンスレベルの予測タスクにおいて標準のTransformerよりも優れている。
論文参考訳（メタデータ） (2020-06-05T05:16:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。