論文の概要: DART: Differentiable Dynamic Adaptive Region Tokenizer for Vision Foundation Models
- arxiv url: http://arxiv.org/abs/2506.10390v3
- Date: Mon, 29 Sep 2025 09:14:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 14:13:47.353726
- Title: DART: Differentiable Dynamic Adaptive Region Tokenizer for Vision Foundation Models
- Title(参考訳): DART:視覚基礎モデルのための動的適応領域トケナイザ
- Authors: Shicheng Yin, Kaixuan Yin, Yang Liu, Weixing Chen, Liang Lin,
- Abstract要約: DARTは、完全に微分可能な動的領域適応型トケナイザである。
DARTは学習可能な領域スコアと量子ベースのパーティショニングを使用して、さまざまなサイズのコンテンツ認識パッチを生成する。
DART-Smallは、DiT-Base86の性能とほぼ2倍の推論速度で一致している。
- 参考スコア(独自算出の注目度): 45.12546316524245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The content-agnostic, fixed-grid tokenizers used by standard large-scale vision models like Vision Transformer (ViT) and Vision Mamba (Vim) represent a fundamental performance bottleneck, creating a trade-off between capturing fine-grained detail and suffering from redundant computation. To resolve this dilemma, we introduce DART, a fully differentiable Dynamic Adaptive Region Tokenizer. DART employs learnable region scores and quantile-based partitioning to create content-aware patches of varying sizes, intelligently allocating a higher token density to information-rich regions. The impact of this approach is profound: it unlocks a more intelligent scaling paradigm, where a DART-equipped DeiT-Small (22M parameters) matches the performance of a DeiT-Base (86M) with nearly double the inference speed by efficiently capturing high-resolution details in key regions. Furthermore, the principle of adaptive tokenization proves its generality with clear benefits in dense prediction and spatiotemporal video tasks. We argue that by resolving the tokenizer bottleneck at its source, adaptive tokenization is a key component for building the next generation of more efficient and capable foundation models for multimodal AI, robotics, and content generation. Code is available at https://github.com/HCPLab-SYSU/DART.
- Abstract(参考訳): Vision Transformer (ViT) や Vision Mamba (Vim) のような標準的な大規模ビジョンモデルで使用されるコンテンツに依存しない固定グリッドトークンは、基本的なパフォーマンスボトルネックを表現し、きめ細かい詳細を捉えることと冗長な計算に苦しむことの間のトレードオフを生み出す。
このジレンマを解決するために、完全に微分可能な動的適応領域TokenizerであるDARTを紹介する。
DARTは学習可能な領域スコアと量子ベースのパーティショニングを使用して、さまざまなサイズのコンテンツ認識パッチを作成し、高トークン密度を情報豊富な領域にインテリジェントに割り当てる。
DART搭載のDeiT-Small(22Mパラメータ)は、キー領域の高解像度の詳細を効率よくキャプチャすることで、DiT-Base(86M)のパフォーマンスとほぼ2倍の推論速度で一致します。
さらに、適応トークン化の原理は、高密度な予測と時空間ビデオタスクにおいて明らかな利点をもって、その一般化を証明している。
我々は、そのソースにおけるトークン化のボトルネックを解決することで、適応トークン化は、マルチモーダルAI、ロボティクス、コンテンツ生成のための、より効率的で有能な次世代基盤モデルを構築するための重要な要素である、と論じている。
コードはhttps://github.com/HCPLab-SYSU/DARTで入手できる。
関連論文リスト
- V2M: Visual 2-Dimensional Mamba for Image Representation Learning [68.51380287151927]
Mambaは、フレキシブルな設計と、1Dシーケンスを処理するための効率的なハードウェア性能のために、広く注目を集めている。
最近の研究では、マンバを2D画像をパッチに平らにすることで視覚領域に適用し、それらを1Dシークエンスとして扱うことが試みられている。
2次元空間における画像トークンを直接処理する完全解として,視覚的2次元マンバモデルを提案する。
論文 参考訳(メタデータ) (2024-10-14T11:11:06Z) - Nested-TNT: Hierarchical Vision Transformers with Multi-Scale Feature Processing [7.202931445597172]
トランスフォーマーは、自然言語処理における優れた性能のため、コンピュータビジョンの分野で応用されている。
本稿ではネストアルゴリズムを導入し,Nested-TNTを画像分類タスクに適用する。
この実験は、提案したモデルが、データセットCIFAR10では2.25%、データセットFLOWERS102では2.78%、0.25%を上回る、ViTとTNTよりも優れた分類性能を達成したことを確認した。
論文 参考訳(メタデータ) (2024-04-20T17:56:14Z) - Leveraging Swin Transformer for Local-to-Global Weakly Supervised
Semantic Segmentation [12.103012959947055]
本研究では、初期シードCAMの精度を高めるために「SWTformer」を提案することで、Swin Transformerの使用について検討する。
SWTformer-V1は、精度0.98%のmAPを実現し、最先端モデルより優れている。
SWTformer-V2は、追加情報を抽出するためにマルチスケールの機能融合機構を組み込んでいる。
論文 参考訳(メタデータ) (2024-01-31T13:41:17Z) - DAT++: Spatially Dynamic Vision Transformer with Deformable Attention [87.41016963608067]
Deformable Attention Transformer (DAT++)を提案する。
DAT++は、85.9%のImageNet精度、54.5および47.0のMS-COCOインスタンスセグメンテーションmAP、51.5のADE20KセマンティックセグメンテーションmIoUで、様々なビジュアル認識ベンチマークで最先端の結果を達成している。
論文 参考訳(メタデータ) (2023-09-04T08:26:47Z) - Laplacian-Former: Overcoming the Limitations of Vision Transformers in
Local Texture Detection [3.784298636620067]
Vision Transformer (ViT) モデルは、幅広いコンピュータビジョンタスクにおいてブレークスルーを実証している。
これらのモデルは、画像の高周波成分を捉えるのに苦労しており、局所的なテクスチャやエッジ情報を検出する能力を制限することができる。
本稿では,ラプラシアンピラミッド内の周波数情報を適応的に補正することで自己注意マップを向上する新しい手法であるラプラシアン・フォーマーを提案する。
論文 参考訳(メタデータ) (2023-08-31T19:56:14Z) - Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文 参考訳(メタデータ) (2022-06-21T17:33:53Z) - TVConv: Efficient Translation Variant Convolution for Layout-aware
Visual Processing [10.996162201540695]
レイアウト認識型視覚処理のための効率的な翻訳変種畳み込み(TVConv)を開発した。
TVConvは畳み込みの効率を大幅に改善し、様々なネットワークアーキテクチャに簡単に接続できる。
論文 参考訳(メタデータ) (2022-03-20T08:29:06Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z) - RAMS-Trans: Recurrent Attention Multi-scale Transformer forFine-grained
Image Recognition [26.090419694326823]
地域注意の局所化と増幅は重要な要素であり、畳み込みニューラルネットワーク(CNN)ベースのアプローチによって多くの研究がなされている。
本稿では,変圧器の自己注意を用いて識別領域の注意を学習する,繰り返し注意型マルチスケール変圧器(RAMS-Trans)を提案する。
論文 参考訳(メタデータ) (2021-07-17T06:22:20Z) - Temporal Distinct Representation Learning for Action Recognition [139.93983070642412]
2次元畳み込みニューラルネットワーク (2D CNN) はビデオの特徴付けに用いられる。
ビデオの異なるフレームは同じ2D CNNカーネルを共有しており、繰り返し、冗長な情報利用をもたらす可能性がある。
本稿では,異なるフレームからの特徴の識別チャネルを段階的にエキサイティングにするためのシーケンシャルチャネルフィルタリング機構を提案し,繰り返し情報抽出を回避する。
本手法は,ベンチマーク時相推論データセットを用いて評価し,それぞれ2.4%,1.3%の可視性向上を実現している。
論文 参考訳(メタデータ) (2020-07-15T11:30:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。