論文の概要: FTCFormer: Fuzzy Token Clustering Transformer for Image Classification
- arxiv url: http://arxiv.org/abs/2507.10283v1
- Date: Mon, 14 Jul 2025 13:49:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:25.053254
- Title: FTCFormer: Fuzzy Token Clustering Transformer for Image Classification
- Title(参考訳): FTCFormer:画像分類のためのファジィトークンクラスタリングトランス
- Authors: Muyi Bao, Changyu Zeng, Yifan Wang, Zhengni Yang, Zimu Wang, Guangliang Cheng, Jun Qi, Wei Wang,
- Abstract要約: トランスフォーマーベースのディープニューラルネットワークは、様々なコンピュータビジョンタスクで顕著な成功を収めている。
ほとんどのトランスフォーマーアーキテクチャは、イメージを均一なグリッドベースの視覚トークンに埋め込み、画像領域の基本的な意味を無視する。
本研究では,空間的位置ではなく意味に基づく視覚トークンを動的に生成するFuzzy Token Clustering Transformer (FTCFormer)を提案する。
- 参考スコア(独自算出の注目度): 22.410199372985584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based deep neural networks have achieved remarkable success across various computer vision tasks, largely attributed to their long-range self-attention mechanism and scalability. However, most transformer architectures embed images into uniform, grid-based vision tokens, neglecting the underlying semantic meanings of image regions, resulting in suboptimal feature representations. To address this issue, we propose Fuzzy Token Clustering Transformer (FTCFormer), which incorporates a novel clustering-based downsampling module to dynamically generate vision tokens based on the semantic meanings instead of spatial positions. It allocates fewer tokens to less informative regions and more to represent semantically important regions, regardless of their spatial adjacency or shape irregularity. To further enhance feature extraction and representation, we propose a Density Peak Clustering-Fuzzy K-Nearest Neighbor (DPC-FKNN) mechanism for clustering center determination, a Spatial Connectivity Score (SCS) for token assignment, and a channel-wise merging (Cmerge) strategy for token merging. Extensive experiments on 32 datasets across diverse domains validate the effectiveness of FTCFormer on image classification, showing consistent improvements over the TCFormer baseline, achieving gains of improving 1.43% on five fine-grained datasets, 1.09% on six natural image datasets, 0.97% on three medical datasets and 0.55% on four remote sensing datasets. The code is available at: https://github.com/BaoBao0926/FTCFormer/tree/main.
- Abstract(参考訳): トランスフォーマーベースのディープニューラルネットワークは、様々なコンピュータビジョンタスクで顕著な成功を収めている。
しかし、ほとんどのトランスフォーマーアーキテクチャは、イメージを均一なグリッドベースの視覚トークンに埋め込み、画像領域の基本的な意味を無視する。
この問題を解決するために,新しいクラスタリングに基づくダウンサンプリングモジュールを組み込んだFuzzy Token Clustering Transformer (FTCFormer)を提案する。
より少ない情報領域と、より意味的に重要な領域を表すために、より少ないトークンを割り当てる。
特徴抽出と表現をさらに強化するために,クラスタリング中心決定のための密度ピーククラスタリング・ファジィK-Nearest Neighbor(DPC-FKNN)機構,トークン割り当てのための空間接続スコア(SCS),トークンマージのためのチャネルワイズマージ(Cmerge)戦略を提案する。
さまざまな領域にわたる32のデータセットに対する大規模な実験は、FTCFormerのイメージ分類の有効性を検証するとともに、TCFormerベースラインに対する一貫した改善を示し、5つのきめ細かいデータセットで1.43%の改善、6つの天然画像データセットで1.09%、3つの医療データセットで0.97%、4つのリモートセンシングデータセットで0.55%の改善を達成した。
コードは、https://github.com/BaoBao0926/FTCFormer/tree/mainで入手できる。
関連論文リスト
- No-Reference Image Quality Assessment with Global-Local Progressive Integration and Semantic-Aligned Quality Transfer [6.095342999639137]
視覚変換器(ViT)を用いたグローバル特徴抽出器と畳み込みニューラルネットワーク(CNN)を用いた局所特徴抽出器を組み合わせた二重測定フレームワークを開発した。
多様な画像コンテンツの品質スコアを主観的な意見スコアで自動的にラベル付けすることで、トレーニングデータを拡張するセマンティック・アライン・クオリティ・トランスファー手法を提案する。
論文 参考訳(メタデータ) (2024-08-07T16:34:32Z) - TCFormer: Visual Recognition via Token Clustering Transformer [79.24723479088097]
本稿では,意味に基づく動的視覚トークンを生成するToken Clustering Transformer (TCFormer)を提案する。
ダイナミックトークンには2つの重要な特徴がある:(1)同じ視覚トークンを用いて類似の意味を持つ画像領域を表現し、(2)それらの領域が隣接していない場合でも、(2)貴重な詳細を持つ領域に集中し、細かなトークンを用いてそれらを表現する。
論文 参考訳(メタデータ) (2024-07-16T02:26:18Z) - AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。
本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。
提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文 参考訳(メタデータ) (2023-11-02T12:48:43Z) - ClusterFormer: Clustering As A Universal Visual Learner [80.79669078819562]
CLUSTERFORMERは、トランスフォーマーを用いたCLUSTERingパラダイムに基づくユニバーサルビジョンモデルである。
不均一な視覚タスクに様々なレベルのクラスタリングの粒度で対処することができる。
その有効性のために、コンピュータビジョンにおける普遍モデルにおけるパラダイムシフトを触媒できることを期待します。
論文 参考訳(メタデータ) (2023-09-22T22:12:30Z) - Domain Adaptive Semantic Segmentation by Optimal Transport [13.133890240271308]
セマンティックシーンセグメンテーションは、それが含んでいるセマンティック情報の豊かさから、多くの注目を集めています。
現在のアプローチは主に畳み込みニューラルネットワーク(CNN)に基づいているが、多くのラベルに依存している。
本稿では、最適輸送(OT)とこの問題に対処するためのアテンションメカニズムに基づくドメイン適応(DA)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-29T03:33:54Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Semantic Labeling of High Resolution Images Using EfficientUNets and
Transformers [5.177947445379688]
畳み込みニューラルネットワークとディープトランスを組み合わせた新しいセグメンテーションモデルを提案する。
提案手法は,最先端技術と比較してセグメント化精度が向上することを示す。
論文 参考訳(メタデータ) (2022-06-20T12:03:54Z) - Transformer-Guided Convolutional Neural Network for Cross-View
Geolocalization [20.435023745201878]
本稿ではトランスフォーマー誘導型畳み込みニューラルネットワーク(TransGCNN)アーキテクチャを提案する。
我々のTransGCNNは、入力画像からCNNのバックボーン抽出特徴マップと、グローバルコンテキストをモデル化するTransformerヘッドで構成される。
CVUSAとCVACT_valでそれぞれ94.12%,84.92%の精度を達成した。
論文 参考訳(メタデータ) (2022-04-21T08:46:41Z) - Pyramid Fusion Transformer for Semantic Segmentation [44.57867861592341]
マルチスケール特徴量を持つマスク毎のセマンティックセマンティックセグメンテーションのためのトランスフォーマベースピラミッドフュージョントランス (PFT) を提案する。
広く使われている3つのセマンティックセグメンテーションデータセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-01-11T16:09:25Z) - MlTr: Multi-label Classification with Transformer [35.14232810099418]
本稿では,ウィンドウ分割,インウインドウ,クロスウインドウといった特徴を持つマルチラベルトランスフォーマーアーキテクチャを提案する。
提案したMlTrは,MS-COCO, Pascal-VOC, NUS-WIDEなど,多言語多言語データセットの最先端結果を示す。
論文 参考訳(メタデータ) (2021-06-11T06:53:09Z) - Conformer: Local Features Coupling Global Representations for Visual
Recognition [72.9550481476101]
本稿では,畳み込み操作と自己アテンション機構を利用した表現学習のためのハイブリッドネットワーク構造,conformerを提案する。
実験では、コンフォーマーが同等のパラメータ複雑性の下で視覚変換器(DeiT-B)を2.3%上回ることが示されている。
論文 参考訳(メタデータ) (2021-05-09T10:00:03Z) - Landmark-Aware and Part-based Ensemble Transfer Learning Network for
Facial Expression Recognition from Static images [0.5156484100374059]
パーツベースのエンサンブルトランスファーラーニングネットワークは、人間の表情認識をモデル化します。
5つのサブネットワークで構成され、各サブネットワークは顔ランドマークの5つのサブセットのうちの1つから転送学習を行う。
リアルタイムデプロイメントの計算効率を保証するために、わずか3.28ドルのFLOPSが106ドルである。
論文 参考訳(メタデータ) (2021-04-22T18:38:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。