論文の概要: TORE: Token Recycling in Vision Transformers for Efficient Active Visual Exploration
- arxiv url: http://arxiv.org/abs/2311.15335v2
- Date: Mon, 25 Nov 2024 07:08:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:33:19.292957
- Title: TORE: Token Recycling in Vision Transformers for Efficient Active Visual Exploration
- Title(参考訳): TORE:能動型視覚探索のための視覚変換器のトークンリサイクル
- Authors: Jan Olszewski, Dawid Rymarczyk, Piotr Wójcik, Mateusz Pach, Bartosz Zieliński,
- Abstract要約: アクティブ・ビジュアル・エクスプロレーション(AVE)は、実世界のシナリオにおけるロボット資源の利用を最適化し、最も情報性の高い観測を順次選択する。
我々はToken Recycling (TORE)と呼ばれる新しいアプローチをAVEに導入する。
エンコーダを抽出器と集約器に分割し、抽出器はそれぞれの観察を別々に処理し、集約器に渡されるトークンの再利用を可能にする。
- 参考スコア(独自算出の注目度): 2.177039289023855
- License:
- Abstract: Active Visual Exploration (AVE) optimizes the utilization of robotic resources in real-world scenarios by sequentially selecting the most informative observations. However, modern methods require a high computational budget due to processing the same observations multiple times through the autoencoder transformers. As a remedy, we introduce a novel approach to AVE called TOken REcycling (TORE). It divides the encoder into extractor and aggregator components. The extractor processes each observation separately, enabling the reuse of tokens passed to the aggregator. Moreover, to further reduce the computations, we decrease the decoder to only one block. Through extensive experiments, we demonstrate that TORE outperforms state-of-the-art methods while reducing computational overhead by up to 90\%.
- Abstract(参考訳): アクティブ・ビジュアル・エクスプロレーション(AVE)は、ロボット資源を現実のシナリオで活用することを最適化する。
しかし、現代の手法ではオートエンコーダ変換器を通して同じ観測を何度も処理するため、高い計算予算を必要とする。
本稿では,AVEに対する新しいアプローチであるToken Recycling(TORE)を紹介する。
エンコーダを抽出器と集約器に分割する。
抽出器はそれぞれの観察を別々に処理し、アグリゲータに渡されるトークンの再利用を可能にする。
さらに,計算量を減らし,デコーダを1ブロックに減らした。
広範な実験により、TOREは最先端の手法より優れ、計算オーバーヘッドを最大90%削減することを示した。
関連論文リスト
- Ring Attention with Blockwise Transformers for Near-Infinite Context [88.61687950039662]
本稿では,複数のデバイスにまたがって長いシーケンスを分散するために,ブロックワイドな自己注意とフィードフォワードの計算を利用する,ブロックワイドトランスフォーマーを用いたリングアテンション(リングアテンション)を提案する。
提案手法では,先行メモリ効率の変換器で達成可能なものよりも,デバイス数倍のシーケンスのトレーニングと推論が可能となる。
論文 参考訳(メタデータ) (2023-10-03T08:44:50Z) - InvKA: Gait Recognition via Invertible Koopman Autoencoder [15.718065380333718]
ほとんどの歩行認識法は、解釈可能性の低下と高い計算コストに悩まされている。
解釈性を改善するために,クープマン作用素理論に基づく埋め込み空間における歩行特徴について検討する。
アルゴリズムの計算コストを削減するため,モデルサイズを削減し,畳み込み層を除去するために可逆的オートエンコーダを用いる。
論文 参考訳(メタデータ) (2023-09-26T08:53:54Z) - Eventful Transformers: Leveraging Temporal Redundancy in Vision
Transformers [27.029600581635957]
本稿では,時間とともに大きく変化したトークンのみを識別・再処理する手法について述べる。
ビデオオブジェクト検出のための大規模データセット(ImageNet VID)と行動認識(EPIC-Kitchens 100)について評価を行った。
論文 参考訳(メタデータ) (2023-08-25T17:10:12Z) - Segmented Recurrent Transformer: An Efficient Sequence-to-Sequence Model [10.473819332984005]
分割された(局所的な)注意と再帰的な注意を結合した分節再帰変圧器(SRformer)を提案する。
提案モデルでは,分割変圧器よりも高いROUGE1スコアを6-22%で達成し,他の再帰変圧器よりも優れている。
論文 参考訳(メタデータ) (2023-05-24T03:47:22Z) - Skip-Attention: Improving Vision Transformers by Paying Less Attention [55.47058516775423]
視覚計算変換器(ViT)は、すべての層で高価な自己注意操作を使用する。
また,SkipAtを提案する。SkipAtは,先行層から自己注意を再利用して1層以上の注意を近似する手法である。
本稿では,画像の分類と自己教師型学習,ADE20Kのセマンティックセグメンテーション,SIDDの画像デノイング,DAVISのビデオデノナイズにおける手法の有効性を示す。
論文 参考訳(メタデータ) (2023-01-05T18:59:52Z) - Temporal Latent Bottleneck: Synthesis of Fast and Slow Processing
Mechanisms in Sequence Learning [85.95599675484341]
リカレントニューラルネットワークは、時間的に圧縮された表現の学習に対して強い誘導バイアスを持つ。
変換器は時間的に圧縮された表現を学習する際の帰納的バイアスがほとんどない。
論文 参考訳(メタデータ) (2022-05-30T00:12:33Z) - Token Pooling in Vision Transformers [37.11990688046186]
視覚変換器では、自己注意は主要なボトルネックではなく、例えば、計算の80%以上が完全に接続された層に費やされている。
本稿では,画像と中間トークン表現の冗長性を効果的に活用するトークンダウンサンプリング手法Token Poolingを提案する。
実験の結果,Token Poolingは最先端のダウンサンプリングに対する費用対精度のトレードオフを大幅に改善することがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:22:50Z) - TEACHTEXT: CrossModal Generalized Distillation for Text-Video Retrieval [103.85002875155551]
本研究では,大規模言語前訓練を利用した一般化蒸留法TeachTextを提案する。
提案手法をビデオ側モダリティに拡張し,テスト時に使用するモダリティの数を効果的に削減できることを示す。
提案手法は,いくつかのビデオ検索ベンチマークの精度を著しく向上させ,テスト時の計算オーバーヘッドを増加させない。
論文 参考訳(メタデータ) (2021-04-16T17:55:28Z) - Decoupling Representation Learning from Reinforcement Learning [89.82834016009461]
Augmented Temporal Contrast (ATC) と呼ばれる教師なし学習タスクを導入する。
ATCは畳み込みエンコーダを訓練し、短い時間差で分離された観測ペアを関連付ける。
オンラインRL実験では,ATCマッチを用いたエンコーダのトレーニングや,エンド・ツー・エンドのRLよりも優れていた。
論文 参考訳(メタデータ) (2020-09-14T19:11:13Z) - Funnel-Transformer: Filtering out Sequential Redundancy for Efficient
Language Processing [112.2208052057002]
本稿では,隠れ状態の列を短く圧縮するFunnel-Transformerを提案する。
Funnel-TransformerはFLOPに匹敵する数が少ないため、様々なシーケンスレベルの予測タスクにおいて標準のTransformerよりも優れている。
論文 参考訳(メタデータ) (2020-06-05T05:16:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。