Fugu-MT 論文翻訳(概要): Learning to Merge Tokens in Vision Transformers

論文の概要: Learning to Merge Tokens in Vision Transformers

arxiv url: http://arxiv.org/abs/2202.12015v1
Date: Thu, 24 Feb 2022 10:56:17 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-26 00:24:45.705698
Title: Learning to Merge Tokens in Vision Transformers
Title（参考訳）: 視覚トランスフォーマーにおけるトークンのマージを学ぶ
Authors: Cedric Renggli, Andr\'e Susano Pinto, Neil Houlsby, Basil Mustafa, Joan Puigcerver, Carlos Riquelme
Abstract要約: PatchMergerは、ネットワークが処理しなければならないパッチやトークンの数を減らすために、2つの連続する中間層間でそれらをマージするモジュールです。 PatchMergerは、様々なモデルサイズで大幅な高速化を実現し、微調整後、元の性能を上流と下流の両方に適合させることを示した。
参考スコア（独自算出の注目度）: 22.029357721814044
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformers are widely applied to solve natural language understanding and computer vision tasks. While scaling up these architectures leads to improved performance, it often comes at the expense of much higher computational costs. In order for large-scale models to remain practical in real-world systems, there is a need for reducing their computational overhead. In this work, we present the PatchMerger, a simple module that reduces the number of patches or tokens the network has to process by merging them between two consecutive intermediate layers. We show that the PatchMerger achieves a significant speedup across various model sizes while matching the original performance both upstream and downstream after fine-tuning.
Abstract（参考訳）: トランスフォーマーは自然言語理解やコンピュータビジョンタスクの解決に広く応用されている。これらのアーキテクチャのスケールアップによってパフォーマンスが向上する一方、計算コストがはるかに高くなることが少なくない。大規模モデルが現実のシステムで実用化されるためには,計算オーバーヘッドを減らす必要がある。この作業では、ネットワークが処理しなければならないパッチやトークンの数を2つの連続する中間層間でマージするシンプルなモジュールであるPatchMergerを紹介します。 PatchMergerは、様々なモデルサイズで大幅な高速化を実現し、微調整後、元の性能を上流と下流の両方に適合させることを示した。

関連論文リスト

Linear Attention with Global Context: A Multipole Attention Mechanism for Vision and Physics [42.41787036246253]
本稿では,マルチポール注意ニューラル演算子 (MANO) について紹介する。我々は,MANOがViTやSwin Transformerといった最先端モデルと競合する一方で,実行時およびピークメモリ使用量を桁違いに削減していることを示す。
論文参考訳（メタデータ） (2025-07-03T16:05:26Z)
DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文参考訳（メタデータ） (2025-04-23T18:38:18Z)
Learned Thresholds Token Merging and Pruning for Vision Transformers [5.141687309207561]
本稿では,トークンマージとトークンプルーニングの両方の長所を活用する新しいアプローチであるLTMP(Learned Thresholds token Merging and Pruning)を紹介する。我々は、ImageNet分類タスクにおいて、視覚変換器に関する広範な実験を行い、我々のアプローチを実証する。
論文参考訳（メタデータ） (2023-07-20T11:30:12Z)
ClusTR: Exploring Efficient Self-attention via Clustering for Vision Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文参考訳（メタデータ） (2022-08-28T04:18:27Z)
Dynamic Spatial Sparsification for Efficient Vision Transformers and Convolutional Neural Networks [88.77951448313486]
視覚データにおける空間空間空間性を利用したモデルアクセラレーションのための新しい手法を提案する。本稿では,冗長トークンを具現化する動的トークンスペーシフィケーションフレームワークを提案する。提案手法は,CNNや階層型視覚変換器などの階層モデルに拡張する。
論文参考訳（メタデータ） (2022-07-04T17:00:51Z)
Learned Queries for Efficient Local Attention [11.123272845092611]
視覚変換器の自己保持機構は、高レイテンシと非効率なメモリ利用に悩まされる。本稿では,クエリ・アンド・アテンション(QnA)と呼ばれる,新たなシフト不変なローカルアテンション層を提案する。我々は、最先端モデルと同等の精度を達成しつつ、スピードとメモリの複雑さの改善を示す。
論文参考訳（メタデータ） (2021-12-21T18:52:33Z)
Local-to-Global Self-Attention in Vision Transformers [130.0369761612812]
トランスフォーマーはコンピュータビジョンタスクに大きな可能性を示した。最近のTransformerモデルは階層設計を採用しており、セルフアテンションはローカルウィンドウ内でのみ計算される。この設計は効率を大幅に改善するが、早い段階ではグローバルな特徴推論が欠如している。本研究では,トランスフォーマーのマルチパス構造を設計し,各ステージにおける複数の粒度での局所的・言語的推論を可能にする。
論文参考訳（メタデータ） (2021-07-10T02:34:55Z)
IA-RED$^2$: Interpretability-Aware Redundancy Reduction for Vision Transformers [81.31885548824926]
自己注意型モデルであるTransformerは近年,コンピュータビジョン分野における主要なバックボーンになりつつある。解釈可能性を考慮した冗長度低減フレームワーク(IA-RED$2$)を提案する。画像タスクとビデオタスクの両方で広範囲に実験を行い、最大1.4倍のスピードアップを実現しました。
論文参考訳（メタデータ） (2021-06-23T18:29:23Z)
Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文参考訳（メタデータ） (2021-05-29T05:26:07Z)
CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image Classification [17.709880544501758]
異なるサイズの画像パッチを組み合わせて、より強力な画像特徴を生成するデュアルブランチトランスを提案します。我々のアプローチは、異なる計算複雑性の2つの別々の分岐を持つ小さなパッチトークンと大きなパッチトークンを処理します。私たちの提案するクロスアテンションは、計算とメモリの複雑さの両方に線形時間しか必要としない。
論文参考訳（メタデータ） (2021-03-27T13:03:17Z)
Addressing Some Limitations of Transformers with Feedback Memory [51.94640029417114]
トランスフォーマーは、フィードフォワードネットワークであるにもかかわらず、シーケンシャルな自動回帰タスクにうまく適用されている。本稿では、過去のすべての表現を将来のすべての表現に公開する、フィードバックトランスフォーマーアーキテクチャを提案する。言語モデリング、機械翻訳、強化学習の様々なベンチマークにおいて、表現能力の増大は、同等のトランスフォーマーよりもはるかに強力なパフォーマンスを持つ、小さくて浅いモデルを生成することができることを実証する。
論文参考訳（メタデータ） (2020-02-21T16:37:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。