論文の概要: ToSA: Token Merging with Spatial Awareness
- arxiv url: http://arxiv.org/abs/2506.20066v1
- Date: Tue, 24 Jun 2025 23:58:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.572109
- Title: ToSA: Token Merging with Spatial Awareness
- Title(参考訳): ToSA:空間認識によるトークンの融合
- Authors: Hsiang-Wei Huang, Wenhao Chai, Kuang-Ming Chen, Cheng-Yen Yang, Jenq-Neng Hwang,
- Abstract要約: ToSAは、意味的および空間的認識を組み合わせ、トークンマージプロセスを導く新しいトークンマージ手法である。
ToSAは、視覚的および具体的質問応答に関する複数のベンチマークで、以前のトークンマージ手法よりも優れている。
- 参考スコア(独自算出の注目度): 20.85218319861827
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Token merging has emerged as an effective strategy to accelerate Vision Transformers (ViT) by reducing computational costs. However, existing methods primarily rely on the visual token's feature similarity for token merging, overlooking the potential of integrating spatial information, which can serve as a reliable criterion for token merging in the early layers of ViT, where the visual tokens only possess weak visual information. In this paper, we propose ToSA, a novel token merging method that combines both semantic and spatial awareness to guide the token merging process. ToSA leverages the depth image as input to generate pseudo spatial tokens, which serve as auxiliary spatial information for the visual token merging process. With the introduced spatial awareness, ToSA achieves a more informed merging strategy that better preserves critical scene structure. Experimental results demonstrate that ToSA outperforms previous token merging methods across multiple benchmarks on visual and embodied question answering while largely reducing the runtime of the ViT, making it an efficient solution for ViT acceleration. The code will be available at: https://github.com/hsiangwei0903/ToSA
- Abstract(参考訳): 視覚変換器(ViT: Vision Transformers)の高速化に有効な手法として,コンピュータコストの削減が期待されている。
しかし、既存の手法は主にトークンマージに視覚トークンの特徴的類似性に依存しており、空間情報の統合の可能性を見越して、視覚トークンが弱い視覚情報しか持たないViTの初期層において、トークンマージの信頼性の高い基準として機能する。
本稿では,トークンマージプロセスの指針として,意味的および空間的認識を組み合わせた新しいトークンマージ手法であるToSAを提案する。
ToSAは、深度画像を入力として利用して擬似空間トークンを生成し、視覚トークンマージプロセスの補助空間情報として機能する。
空間認識の導入により、ToSAは重要なシーン構造をよりよく保存する、より情報に富んだ統合戦略を達成できる。
実験の結果、ToSAは視覚的および具体的質問応答において、複数のベンチマークで過去のトークンマージ手法より優れており、ViTのランタイムを大幅に削減し、ViTアクセラレーションの効率的なソリューションであることがわかった。
コードは以下の通り。 https://github.com/hsiangwei0903/ToSA
関連論文リスト
- Token Dynamics: Towards Efficient and Dynamic Video Token Representation for Video Large Language Models [50.214593234229255]
極端に短いトークンの削減という新しいタスクを導入し、最小限のトークン数で広範囲なビデオシーケンスを表現することを目的としている。
空間的時間的コヒーレンスを保ちながらトークン数を動的に削減する新しいビデオ表現フレームワークであるToken Dynamicsを提案する。
実験では、トークンの数を0.07%に減らし、小さなパフォーマンス低下は1.13%に過ぎなかった。
論文 参考訳(メタデータ) (2025-03-21T09:46:31Z) - Learning to Merge Tokens via Decoupled Embedding for Efficient Vision Transformers [18.850145019462552]
ビジョントランスフォーマー(ViT)の最近のトークン削減手法では、トークンの埋め込みの類似度を測定し、最も類似したペアを組み合わせるトークンマージが組み込まれている。
本手法では,ViTフォワードパスから分離した軽量な埋め込みモジュールを導入し,トークンマージ専用の特徴を抽出する。
分離構造のおかげで既存のViTバックボーンにシームレスに統合することができ、デカップリングされた埋め込みのみを学ぶか、微調整でエンドツーエンドで学習することでモジュール的にトレーニングすることができる。
論文 参考訳(メタデータ) (2024-12-13T21:17:11Z) - Video Token Merging for Long-form Video Understanding [17.59960070514554]
学習可能なビデオトークンのマージアルゴリズムを提案し,その正当性に基づいて動的にトークンをマージする。
提案手法は,メモリコストを84%削減し,スループットをベースラインアルゴリズムに比べて約6.89倍向上させる。
論文 参考訳(メタデータ) (2024-10-31T09:55:32Z) - ToSA: Token Selective Attention for Efficient Vision Transformers [50.13756218204456]
ToSAはトークン選択型アテンションアプローチで、コンバータ層をスキップできるトークンだけでなく、参加する必要のあるトークンも識別できる。
ToSAは,ImageNet分類ベンチマークの精度を維持しながら,計算コストを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-06-13T05:17:21Z) - LeMeViT: Efficient Vision Transformer with Learnable Meta Tokens for Remote Sensing Image Interpretation [37.72775203647514]
本稿では,学習可能なメタトークンを用いてスパーストークンを定式化し,キー情報を効果的に学習し,推論速度を向上させることを提案する。
視覚トークンが密集した早期にデュアル・クロス・アテンション(DCA)を用いることで,様々な大きさの階層型アーキテクチャLeMeViTが得られる。
分類と密接な予測タスクの実験結果は、LeMeViTがベースラインモデルと比較して1.7倍のスピードアップ、少ないパラメータ、競争性能を持っていることを示している。
論文 参考訳(メタデータ) (2024-05-16T03:26:06Z) - Token Fusion: Bridging the Gap between Token Pruning and Token Merging [71.84591084401458]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの強力なバックボーンとして登場し、多くの伝統的なCNNを上回っている。
計算オーバーヘッドは、主に自己アテンション機構によるもので、リソース制約のあるエッジデバイスへのデプロイが困難になる。
トークンプルーニングとトークンマージの両方のメリットを両立させる手法であるToken Fusion(ToFu)を紹介する。
論文 参考訳(メタデータ) (2023-12-02T04:29:19Z) - AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。
本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。
提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文 参考訳(メタデータ) (2023-11-02T12:48:43Z) - Token-Label Alignment for Vision Transformers [93.58540411138164]
データ混合戦略(例えば、CutMix)は、畳み込みニューラルネットワーク(CNN)の性能を大幅に改善する能力を示している。
我々は,データ混合戦略の可能性を抑制するトークン変動現象を同定する。
本稿では,各トークンのラベルを保持するために,変換されたトークンと元のトークンとの対応をトレースするトークンラベルアライメント(TL-Align)手法を提案する。
論文 参考訳(メタデータ) (2022-10-12T17:54:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。