論文の概要: Learning to Merge Tokens via Decoupled Embedding for Efficient Vision Transformers
- arxiv url: http://arxiv.org/abs/2412.10569v1
- Date: Fri, 13 Dec 2024 21:17:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:00:59.187737
- Title: Learning to Merge Tokens via Decoupled Embedding for Efficient Vision Transformers
- Title(参考訳): 視覚変換器の非結合埋め込みによるトークンのマージ学習
- Authors: Dong Hoon Lee, Seunghoon Hong,
- Abstract要約: ビジョントランスフォーマー(ViT)の最近のトークン削減手法では、トークンの埋め込みの類似度を測定し、最も類似したペアを組み合わせるトークンマージが組み込まれている。
本手法では,ViTフォワードパスから分離した軽量な埋め込みモジュールを導入し,トークンマージ専用の特徴を抽出する。
分離構造のおかげで既存のViTバックボーンにシームレスに統合することができ、デカップリングされた埋め込みのみを学ぶか、微調整でエンドツーエンドで学習することでモジュール的にトレーニングすることができる。
- 参考スコア(独自算出の注目度): 18.850145019462552
- License:
- Abstract: Recent token reduction methods for Vision Transformers (ViTs) incorporate token merging, which measures the similarities between token embeddings and combines the most similar pairs. However, their merging policies are directly dependent on intermediate features in ViTs, which prevents exploiting features tailored for merging and requires end-to-end training to improve token merging. In this paper, we propose Decoupled Token Embedding for Merging (DTEM) that enhances token merging through a decoupled embedding learned via a continuously relaxed token merging process. Our method introduces a lightweight embedding module decoupled from the ViT forward pass to extract dedicated features for token merging, thereby addressing the restriction from using intermediate features. The continuously relaxed token merging, applied during training, enables us to learn the decoupled embeddings in a differentiable manner. Thanks to the decoupled structure, our method can be seamlessly integrated into existing ViT backbones and trained either modularly by learning only the decoupled embeddings or end-to-end by fine-tuning. We demonstrate the applicability of DTEM on various tasks, including classification, captioning, and segmentation, with consistent improvement in token merging. Especially in the ImageNet-1k classification, DTEM achieves a 37.2% reduction in FLOPs while maintaining a top-1 accuracy of 79.85% with DeiT-small. Code is available at \href{https://github.com/movinghoon/dtem}{link}.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)の最近のトークン削減手法では、トークンの埋め込みの類似度を測定し、最も類似したペアを組み合わせるトークンマージが組み込まれている。
しかし、マージポリシーはViTの中間機能に直接依存しており、マージに適した機能の利用を防ぎ、トークンマージを改善するためにエンドツーエンドのトレーニングを必要とする。
本稿では, 連続的に緩和されたトークンマージプロセスを通じて学習したデカップリング埋め込みを通じてトークンマージを促進するデカップリングトークンエンベディング(DTEM)を提案する。
本手法では,ViTフォワードパスから分離した軽量な埋め込みモジュールを導入し,トークンマージ専用の特徴を抽出し,中間機能の使用による制約に対処する。
継続的に緩和されたトークンマージは、トレーニング中に適用され、分離された埋め込みを異なる方法で学習することができる。
分離構造のおかげで既存のViTバックボーンにシームレスに統合することができ、デカップリングされた埋め込みのみを学ぶか、微調整でエンドツーエンドで学習することでモジュール的にトレーニングすることができる。
分類,キャプション,セグメンテーションなど様々なタスクにおけるDTEMの適用性を実証し,トークンのマージを一貫した改善を行った。
特に ImageNet-1k 分類では、DTEM は FLOP を37.2% 削減し、DeiT-small で 79.85% の精度を維持している。
コードは \href{https://github.com/movinghoon/dtem}{link} で公開されている。
関連論文リスト
- Token Merging for Training-Free Semantic Binding in Text-to-Image Synthesis [98.21700880115938]
Text-to-image (T2I) モデルは、しばしば入力プロンプトに意味的に関連付けられたオブジェクトや属性を正確に結合するのに失敗する。
Token Merging(ToMe)と呼ばれる新しい手法を導入し、関連するトークンを1つの複合トークンに集約することでセマンティックバインディングを強化する。
論文 参考訳(メタデータ) (2024-11-11T17:05:15Z) - Video Token Merging for Long-form Video Understanding [17.59960070514554]
学習可能なビデオトークンのマージアルゴリズムを提案し,その正当性に基づいて動的にトークンをマージする。
提案手法は,メモリコストを84%削減し,スループットをベースラインアルゴリズムに比べて約6.89倍向上させる。
論文 参考訳(メタデータ) (2024-10-31T09:55:32Z) - Token-level Correlation-guided Compression for Efficient Multimodal Document Understanding [54.532578213126065]
ほとんどの文書理解手法は、サブイメージ内の全てのトークンを保存し、それらを等しく扱う。
これにより、異なる情報性が無視され、画像トークンの数が大幅に増加する。
トークン処理を最適化するためのパラメータフリーかつプラグアンドプレイ手法であるトークンレベルの相関誘導圧縮を提案する。
論文 参考訳(メタデータ) (2024-07-19T16:11:15Z) - Less is more: Summarizing Patch Tokens for efficient Multi-Label Class-Incremental Learning [38.36863497458095]
我々は, pAtch tokeN Embeddings (MULTI-LANE) を要約したクラス増分学習手法を提案する。
提案手法は, pAtch tokeN Embeddings (MULTI-LANE) を要約したマルチラベルクラスインクリメンタルラーニングであり, 高速な推論を実現するとともに, MLCILにおける非絡合タスク固有表現の学習を可能にする。
論文 参考訳(メタデータ) (2024-05-24T15:18:27Z) - Token Fusion: Bridging the Gap between Token Pruning and Token Merging [71.84591084401458]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの強力なバックボーンとして登場し、多くの伝統的なCNNを上回っている。
計算オーバーヘッドは、主に自己アテンション機構によるもので、リソース制約のあるエッジデバイスへのデプロイが困難になる。
トークンプルーニングとトークンマージの両方のメリットを両立させる手法であるToken Fusion(ToFu)を紹介する。
論文 参考訳(メタデータ) (2023-12-02T04:29:19Z) - Unlocking the Transferability of Tokens in Deep Models for Tabular Data [67.11727608815636]
トレーニング済みのディープニューラルネットワークの微調整は、さまざまな機械学習タスクにおいて成功しているパラダイムとなっている。
本稿では,特徴トークンの品質向上を目的としたTabTokenを提案する。
トークンを規則化し、機能内および機能間のセマンティクスをキャプチャする、対照的な目的を導入します。
論文 参考訳(メタデータ) (2023-10-23T17:53:09Z) - Token Sparsification for Faster Medical Image Segmentation [37.25161294917211]
セグメント化をスパース符号化 ->トークン補完 -> 密度復号化(SCD)パイプラインとして再構成する。
STPは軽量なサブネットワークで重要度を予測し、トップKトークンをサンプリングする。
MTAはスパース出力トークンとプルーニングされた多層中間トークンの両方を組み立てることで、完全なトークンシーケンスを復元する。
論文 参考訳(メタデータ) (2023-03-11T23:59:13Z) - HyRSM++: Hybrid Relation Guided Temporal Set Matching for Few-shot
Action Recognition [51.2715005161475]
そこで本研究では,数発のアクション認識のための時間的マッチング手法として,ハイブリッドリレーションド・テンポラル・セット・マッチングを提案する。
HyRSM++の中核となる考え方は、すべてのビデオをタスクに統合して差別的な表現を学ぶことである。
提案手法は,様々な撮影条件下での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-01-09T13:32:50Z) - Token-Label Alignment for Vision Transformers [93.58540411138164]
データ混合戦略(例えば、CutMix)は、畳み込みニューラルネットワーク(CNN)の性能を大幅に改善する能力を示している。
我々は,データ混合戦略の可能性を抑制するトークン変動現象を同定する。
本稿では,各トークンのラベルを保持するために,変換されたトークンと元のトークンとの対応をトレースするトークンラベルアライメント(TL-Align)手法を提案する。
論文 参考訳(メタデータ) (2022-10-12T17:54:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。