論文の概要: ClustViT: Clustering-based Token Merging for Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2510.01948v1
- Date: Thu, 02 Oct 2025 12:15:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.122951
- Title: ClustViT: Clustering-based Token Merging for Semantic Segmentation
- Title(参考訳): ClustViT: セマンティックセグメンテーションのためのクラスタリングベースのトークンマージ
- Authors: Fabio Montello, Ronja Güldenring, Lazaros Nalpantidis,
- Abstract要約: 最近の研究は、画像の複雑さに応じてトークンを動的にマージすることに焦点を当てている。
我々は、視覚変換器(ViT)のバックボーンとアドレスセマンティックセグメンテーションを拡張するClustViTを提案する。
提案手法は,3つのデータセットに対して最大2.18倍のGFLOPと1.64倍の高速推論を実現する。
- 参考スコア(独自算出の注目度): 2.661056455199956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers can achieve high accuracy and strong generalization across various contexts, but their practical applicability on real-world robotic systems is limited due to their quadratic attention complexity. Recent works have focused on dynamically merging tokens according to the image complexity. Token merging works well for classification but is less suited to dense prediction. We propose ClustViT, where we expand upon the Vision Transformer (ViT) backbone and address semantic segmentation. Within our architecture, a trainable Cluster module merges similar tokens along the network guided by pseudo-clusters from segmentation masks. Subsequently, a Regenerator module restores fine details for downstream heads. Our approach achieves up to 2.18x fewer GFLOPs and 1.64x faster inference on three different datasets, with comparable segmentation accuracy. Our code and models will be made publicly available.
- Abstract(参考訳): 視覚変換器は、様々な状況において高精度で強力な一般化を実現することができるが、実際のロボットシステムへの適用性は、2次的注意の複雑さのために制限されている。
最近の研究は、画像の複雑さに応じてトークンを動的にマージすることに焦点を当てている。
トケンマージは分類には適しているが、密集した予測には適していない。
我々は、視覚変換器(ViT)のバックボーンとアドレスセマンティックセグメンテーションを拡張するClustViTを提案する。
私たちのアーキテクチャでは、トレーニング可能なClusterモジュールが、セグメンテーションマスクの擬似クラスタによってガイドされるネットワークに沿って、類似のトークンをマージします。
その後、Regeneratorモジュールは下流ヘッドの詳細な詳細を復元する。
提案手法は,3つのデータセットに対して最大2.18倍のGFLOPと1.64倍の高速推論を実現する。
私たちのコードとモデルは公開されます。
関連論文リスト
- Semantic Equitable Clustering: A Simple and Effective Strategy for Clustering Vision Tokens [57.37893387775829]
我々はSemantic Equitable Clustering(SEC)という,高速かつバランスの取れたクラスタリング手法を導入する。
SECは、グローバルなセマンティックな関連性に基づいてトークンを効率的かつ直接的な方法でクラスタ化する。
視覚言語コネクタとして機能する汎用視覚バックボーンであるSECViTを提案する。
論文 参考訳(メタデータ) (2024-05-22T04:49:00Z) - HGFormer: Hierarchical Grouping Transformer for Domain Generalized
Semantic Segmentation [113.6560373226501]
本研究は領域一般化設定の下で意味的セグメンテーションを研究する。
本稿では,階層型グループ化変換器(HGFormer)を提案する。
実験により、HGFormerはピクセルごとの分類法やフラットグルーピング変換器よりも、より堅牢なセマンティックセグメンテーション結果が得られることが示された。
論文 参考訳(メタデータ) (2023-05-22T13:33:41Z) - Making Vision Transformers Efficient from A Token Sparsification View [26.42498120556985]
本稿では,グローバル・ローカル・ビジョン・トランスフォーマのための新しいセマンティック・トークンViT(STViT)を提案する。
提案手法は,対象検出やインスタンスセグメンテーションにおける元のネットワークと比較して,30%以上のFLOPを削減できる。
さらに,STViTに基づいて詳細な空間情報を復元するためのSTViT-R(ecover)ネットワークを設計し,下流タスクに有効である。
論文 参考訳(メタデータ) (2023-03-15T15:12:36Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - CenterCLIP: Token Clustering for Efficient Text-Video Retrieval [67.21528544724546]
CLIPでは、ビデオ内の連続するフレームの冗長性のために、離散的な視覚トークンシーケンスを生成する重要な視覚トークン化プロセスが、多くの均一なトークンを生成する。
これにより、計算コストが大幅に増加し、Webアプリケーションにおけるビデオ検索モデルの展開が妨げられる。
本稿では,最も代表的なトークンを抽出し,非意味トークンをドロップするマルチセグメントトークンクラスタリングアルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-05-02T12:02:09Z) - SOTR: Segmenting Objects with Transformers [0.0]
高品質なインスタンスセグメンテーションのための,新しい,フレキシブルで効果的なトランスフォーマーベースモデルを提案する。
提案手法は, TRansformer (SOTR) を用いたSegmenting Objects (Segmenting Objects) により, 分割パイプラインを単純化する。
我々のSOTRはMS COCOデータセットでよく機能し、最先端のインスタンスセグメンテーションアプローチを超えています。
論文 参考訳(メタデータ) (2021-08-15T14:10:11Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。