論文の概要: CubistMerge: Spatial-Preserving Token Merging For Diverse ViT Backbones
- arxiv url: http://arxiv.org/abs/2509.21764v1
- Date: Fri, 26 Sep 2025 01:59:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.11937
- Title: CubistMerge: Spatial-Preserving Token Merging For Diverse ViT Backbones
- Title(参考訳): CubistMerge: 多様なViTバックボーンのための空間保存型トークンマージ
- Authors: Wenyi Gong, Mieszko Lis,
- Abstract要約: ViTのバックボーンは、ウィンドウアテンション、SAMの相対的な位置埋め込み、DINOv3のRoPEといった空間設計を採用している。
本稿では,空間的整合性を維持し,空間的アーキテクチャとのシームレスな整合性を実現するための,シンプルで効果的なトークンマージ手法を提案する。
提案手法では, (i) 構成されたトークン配置を強制するための2次元削減戦略, (ii) 相対的なトークン位置を維持する空間認識型マージアルゴリズム, (iii) 新規な最大値/次元トークン表現を用いる。
- 参考スコア(独自算出の注目度): 0.7448254811651417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many modern ViT backbones adopt spatial architectural designs, such as window attention, decomposed relative positional embeddings in SAM, and RoPE in DINOv3. Such architectures impose new challenges on token reduction, as the vast majority of existing methods fail to preserve the spatial structure these architectures depend on. In this paper, we introduce a simple yet effective token merging method that maintains spatial integrity, enabling seamless compatibility with spatial architectures. We reconcile two seemingly conflicting requirements: (i)exploiting the uneven information distribution across the spatial layout while (ii)preserving the spatial structure post-merging. Our approach employs (i)a 2D reduction strategy to enforce structured token layouts, (ii)a spatial-aware merging algorithm that maintains relative token positions, and (iii)a novel max-magnitude-per-dimension token representation that preserves salient features. Our method demonstrates strong performance both off-the-shelf and with fine-tuning, achieving state-of-the-art results on spatial and non-spatial architectures across various vision tasks. Specifically, we achieve 1.25x speedup on SAM-H with only 0.7% mIOU drop evaluated on COCO off-the-shelf, and 1.15x speedup on DeiT-B with no top-1 accuracy drop on ImageNet within just one epoch of fine-tuning.
- Abstract(参考訳): 現代のViTバックボーンの多くは、窓の注意、SAMの相対的な位置埋め込み、DINOv3のRoPEといった空間的設計を採用している。
このようなアーキテクチャでは、既存の手法の大部分がこれらのアーキテクチャが依存する空間構造を保存できないため、トークンの削減に新たな課題が課せられる。
本稿では,空間的整合性を維持し,空間的アーキテクチャとのシームレスな整合性を実現するための,シンプルで効果的なトークンマージ手法を提案する。
我々は相反する2つの要件を和解する。
一 空間配置における不均一な情報分布の解明
(II)合併後の空間構造を保存すること。
私たちのアプローチは
(i)構造化トークンレイアウトを強制する2次元縮小戦略
(ii)相対的なトークン位置を維持する空間認識マージアルゴリズム、及び
(三)有能な特徴を保存した新規な最大1次元トークン表現。
本手法は,様々な視覚タスクにおける空間的および非空間的アーキテクチャの最先端性を実現するため,既設品と微調整品の両方で高い性能を示す。
具体的には, SAM-Hで1.25倍, COCOオフザシェルフで0.7%, DeiT-Bで1.15倍, ImageNetで1時間以内の精度で1.15倍のスピードアップを実現した。
関連論文リスト
- CAGE: Continuity-Aware edGE Network Unlocks Robust Floorplan Reconstruction [6.027087091285519]
textbfCAGE (textitContinuity-Aware edGE)ネットワークは、ポイントクラウド密度マップから直接ベクトルフロアプランを再構築する。
textbfCAGEは最先端のパフォーマンスを実現し、F1スコアは99.1%(部屋)、91.7%(コーナー)、89.3%(角度)である。
論文 参考訳(メタデータ) (2025-09-18T22:10:37Z) - Learning Spatial Decay for Vision Transformers [50.63391799053993]
視覚変換器(ViT)はコンピュータビジョンに革命をもたらしたが、その自己認識機構には明らかに空間誘導バイアスがない。
既存のアプローチでは、固定距離メトリクスに基づくデータ非依存の空間減衰が導入されている。
データ依存型空間減衰の2次元視覚変換器への適応が最初に成功した例を示す。
論文 参考訳(メタデータ) (2025-08-13T06:18:32Z) - Identity-Preserving Text-to-Video Generation Guided by Simple yet Effective Spatial-Temporal Decoupled Representations [131.33758144860988]
アイデンティティ保存型テキスト・ツー・ビデオ(IPT2V)生成は、一貫した人間のアイデンティティを持つ高忠実度ビデオを作成することを目的としている。
現在のエンドツーエンドフレームワークは、重要な空間的・時間的トレードオフを被る。
本稿では,表現をレイアウトの空間的特徴と運動力学の時間的特徴に分解する,シンプルで効果的な空間時空間分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-07T06:54:44Z) - EfficientViM: Efficient Vision Mamba with Hidden State Mixer based State Space Duality [16.576495786546612]
隠れ状態ミキサーに基づく状態空間双対性(HSM-SSD)に基づく新しいアーキテクチャであるEfficient Vision Mambaを紹介する。
隠れ状態の表現力を強化するために,多段隠れ状態融合を提案し,メモリバウンド操作によるボトルネックを軽減する設計を提案する。
その結果、EfficientViMファミリはImageNet-1k上で新しい最先端のスピード精度トレードオフを実現し、より高速な第2世代モデルSHViTよりも最大で0.7%の性能向上を実現した。
論文 参考訳(メタデータ) (2024-11-22T02:02:06Z) - Searching a High-Performance Feature Extractor for Text Recognition
Network [92.12492627169108]
優れた特徴抽出器を持つための原理を探求し,ドメイン固有の検索空間を設計する。
空間は巨大で複雑な構造であるため、既存のNASアルゴリズムを適用することはできない。
本研究では,空間内を効率的に探索する2段階のアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-27T03:49:04Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Index $t$-SNE: Tracking Dynamics of High-Dimensional Datasets with
Coherent Embeddings [1.7188280334580195]
本稿では,クラスタの位置を保存した新しいものを作成するために,埋め込みを再利用する手法を提案する。
提案アルゴリズムは,新しい項目を埋め込むために$t$-SNEと同じ複雑さを持つ。
論文 参考訳(メタデータ) (2021-09-22T06:45:37Z) - CM-NAS: Cross-Modality Neural Architecture Search for Visible-Infrared
Person Re-Identification [102.89434996930387]
VI-ReIDは、暗い環境での単一モダリティ人物ReIDの制限を突破し、クロスモダリティ歩行者のイメージを一致させることを目指しています。
既存の作品は、さまざまな2ストリームアーキテクチャを手動で設計して、モダリティ固有およびモダリティシャーブル表現を別々に学習する。
CM-NAS(Cross-Modality Neural Architecture Search)という手法を提案する。
論文 参考訳(メタデータ) (2021-01-21T07:07:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。