論文の概要: DART: Differentiable Dynamic Adaptive Region Tokenizer for Vision Transformer and Mamba
- arxiv url: http://arxiv.org/abs/2506.10390v1
- Date: Thu, 12 Jun 2025 06:25:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.605242
- Title: DART: Differentiable Dynamic Adaptive Region Tokenizer for Vision Transformer and Mamba
- Title(参考訳): DART:視覚変換器とマンバ用動的適応領域トケナイザ
- Authors: Shicheng Yin, Kaixuan Yin, Yang Liu, Weixing Chen, Liang Lin,
- Abstract要約: Vision Transformer (ViT) や Vision Mamba (Vim) のような非畳み込みモデルは、コンピュータビジョンタスクにおいて顕著な性能を達成した。
そこで本研究では,DART(Dynamic Adaptive Region Tokenizer,動的適応型領域トークンライザ)を導入し,画像を様々な大きさのコンテンツ依存パッチに適応的に分割する。
約100万(100万)の追加パラメータしか導入していないが、DARTはDeiT(ImageNet-1K)の精度を2.1%向上した。
- 参考スコア(独自算出の注目度): 50.05079861129032
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, non-convolutional models such as the Vision Transformer (ViT) and Vision Mamba (Vim) have achieved remarkable performance in computer vision tasks. However, their reliance on fixed-size patches often results in excessive encoding of background regions and omission of critical local details, especially when informative objects are sparsely distributed. To address this, we introduce a fully differentiable Dynamic Adaptive Region Tokenizer (DART), which adaptively partitions images into content-dependent patches of varying sizes. DART combines learnable region scores with piecewise differentiable quantile operations to allocate denser tokens to information-rich areas. Despite introducing only approximately 1 million (1M) additional parameters, DART improves accuracy by 2.1% on DeiT (ImageNet-1K). Unlike methods that uniformly increase token density to capture fine-grained details, DART offers a more efficient alternative, achieving 45% FLOPs reduction with superior performance. Extensive experiments on DeiT, Vim, and VideoMamba confirm that DART consistently enhances accuracy while incurring minimal or even reduced computational overhead. Code is available at https://github.com/HCPLab-SYSU/DART.
- Abstract(参考訳): 近年、ViT(Vision Transformer)やVim(Vision Mamba)のような非畳み込みモデルは、コンピュータビジョンタスクにおいて顕著な性能を達成している。
しかし、固定サイズのパッチへの依存は、しばしば背景領域の過剰な符号化と重要な局所的詳細の欠落をもたらす。
これを解決するために,DART (Dynamic Adaptive Region Tokenizer) を導入し,画像を様々なサイズのコンテンツ依存パッチに適応的に分割する。
DARTは学習可能な領域スコアと断片的に微分可能な量子演算を組み合わせることで、より高密度なトークンを情報豊富な領域に割り当てる。
約100万(100万)の追加パラメータしか導入していないが、DARTはDeiT(ImageNet-1K)の精度を2.1%改善している。
トークン密度を均一に増加させ細部を捉える方法とは異なり、DARTはより効率的な代替手段を提供し、優れた性能で45%のFLOPを削減できる。
DeiT、Vim、VideoMambaの大規模な実験により、DARTは最小あるいは最小の計算オーバーヘッドを発生させながら精度を継続的に向上することを確認した。
コードはhttps://github.com/HCPLab-SYSU/DARTで入手できる。
関連論文リスト
- V2M: Visual 2-Dimensional Mamba for Image Representation Learning [68.51380287151927]
Mambaは、フレキシブルな設計と、1Dシーケンスを処理するための効率的なハードウェア性能のために、広く注目を集めている。
最近の研究では、マンバを2D画像をパッチに平らにすることで視覚領域に適用し、それらを1Dシークエンスとして扱うことが試みられている。
2次元空間における画像トークンを直接処理する完全解として,視覚的2次元マンバモデルを提案する。
論文 参考訳(メタデータ) (2024-10-14T11:11:06Z) - Nested-TNT: Hierarchical Vision Transformers with Multi-Scale Feature Processing [7.202931445597172]
トランスフォーマーは、自然言語処理における優れた性能のため、コンピュータビジョンの分野で応用されている。
本稿ではネストアルゴリズムを導入し,Nested-TNTを画像分類タスクに適用する。
この実験は、提案したモデルが、データセットCIFAR10では2.25%、データセットFLOWERS102では2.78%、0.25%を上回る、ViTとTNTよりも優れた分類性能を達成したことを確認した。
論文 参考訳(メタデータ) (2024-04-20T17:56:14Z) - Leveraging Swin Transformer for Local-to-Global Weakly Supervised
Semantic Segmentation [12.103012959947055]
本研究では、初期シードCAMの精度を高めるために「SWTformer」を提案することで、Swin Transformerの使用について検討する。
SWTformer-V1は、精度0.98%のmAPを実現し、最先端モデルより優れている。
SWTformer-V2は、追加情報を抽出するためにマルチスケールの機能融合機構を組み込んでいる。
論文 参考訳(メタデータ) (2024-01-31T13:41:17Z) - DAT++: Spatially Dynamic Vision Transformer with Deformable Attention [87.41016963608067]
Deformable Attention Transformer (DAT++)を提案する。
DAT++は、85.9%のImageNet精度、54.5および47.0のMS-COCOインスタンスセグメンテーションmAP、51.5のADE20KセマンティックセグメンテーションmIoUで、様々なビジュアル認識ベンチマークで最先端の結果を達成している。
論文 参考訳(メタデータ) (2023-09-04T08:26:47Z) - Laplacian-Former: Overcoming the Limitations of Vision Transformers in
Local Texture Detection [3.784298636620067]
Vision Transformer (ViT) モデルは、幅広いコンピュータビジョンタスクにおいてブレークスルーを実証している。
これらのモデルは、画像の高周波成分を捉えるのに苦労しており、局所的なテクスチャやエッジ情報を検出する能力を制限することができる。
本稿では,ラプラシアンピラミッド内の周波数情報を適応的に補正することで自己注意マップを向上する新しい手法であるラプラシアン・フォーマーを提案する。
論文 参考訳(メタデータ) (2023-08-31T19:56:14Z) - Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文 参考訳(メタデータ) (2022-06-21T17:33:53Z) - TVConv: Efficient Translation Variant Convolution for Layout-aware
Visual Processing [10.996162201540695]
レイアウト認識型視覚処理のための効率的な翻訳変種畳み込み(TVConv)を開発した。
TVConvは畳み込みの効率を大幅に改善し、様々なネットワークアーキテクチャに簡単に接続できる。
論文 参考訳(メタデータ) (2022-03-20T08:29:06Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。