論文の概要: CoCAViT: Compact Vision Transformer with Robust Global Coordination
- arxiv url: http://arxiv.org/abs/2508.05307v1
- Date: Thu, 07 Aug 2025 12:07:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.845535
- Title: CoCAViT: Compact Vision Transformer with Robust Global Coordination
- Title(参考訳): CoCAViT:ロバストグローバルコーディネート付き小型ビジョントランス
- Authors: Xuyang Wang, Lingjuan Miao, Zhiqiang Zhou,
- Abstract要約: 本稿では,堅牢なリアルタイム視覚表現のために設計された新しい視覚バックボーンであるCoCAViTを提案する。
224*224の解像度で、CoCAViT-28MはImageNet-1Kで84.0%のトップ-1の精度を達成した。
また、オブジェクト検出では52.2 mAP、ADE20Kセマンティックセグメンテーションでは51.3 mIOU、低レイテンシでは維持できる。
- 参考スコア(独自算出の注目度): 8.041959685852085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, large-scale visual backbones have demonstrated remarkable capabilities in learning general-purpose features from images via extensive pre-training. Concurrently, many efficient architectures have emerged that have performance comparable to that of larger models on in-domain benchmarks. However, we observe that for smaller models, the performance drop on out-of-distribution (OOD) data is disproportionately larger, indicating a deficiency in the generalization performance of existing efficient models. To address this, we identify key architectural bottlenecks and inappropriate design choices that contribute to this issue, retaining robustness for smaller models. To restore the global field of pure window attention, we further introduce a Coordinator-patch Cross Attention (CoCA) mechanism, featuring dynamic, domain-aware global tokens that enhance local-global feature modeling and adaptively capture robust patterns across domains with minimal computational overhead. Integrating these advancements, we present CoCAViT, a novel visual backbone designed for robust real-time visual representation. Extensive experiments empirically validate our design. At a resolution of 224*224, CoCAViT-28M achieves 84.0% top-1 accuracy on ImageNet-1K, with significant gains on multiple OOD benchmarks, compared to competing models. It also attains 52.2 mAP on COCO object detection and 51.3 mIOU on ADE20K semantic segmentation, while maintaining low latency.
- Abstract(参考訳): 近年、大規模な視覚バックボーンは、広範囲な事前学習を通じて画像から汎用的な特徴を学習する際、顕著な能力を発揮している。
同時に、ドメイン内のベンチマークでより大きなモデルに匹敵するパフォーマンスを持つ多くの効率的なアーキテクチャが出現した。
しかし, より小さなモデルでは, アウト・オブ・ディストリビューション(OOD)データの性能低下は相容れないほど大きく, 既存の効率的なモデルの一般化性能の欠如を示唆している。
この問題に対処するために、我々は、この問題に寄与する重要なアーキテクチャ上のボトルネックと不適切な設計選択を特定し、より小さなモデルに対する堅牢性を維持します。
純粋なウィンドウアテンションのグローバルフィールドを復元するために、我々はさらにCoCA(Coordinator-patch Cross Attention)機構を導入し、ローカル・グローバルな特徴モデリングを強化し、最小の計算オーバーヘッドでドメイン間のロバストなパターンを適応的にキャプチャする、動的でドメイン対応のグローバルトークンを特徴付ける。
これらの進歩を統合することで、堅牢なリアルタイム視覚表現のために設計された新しい視覚バックボーンであるCoCAViTを提案する。
大規模な実験は我々の設計を実証的に検証する。
224*224の解像度で、CoCAViT-28MはImageNet-1Kで84.0%のトップ-1の精度を達成した。
COCOオブジェクト検出では52.2 mAP、ADE20Kセマンティックセグメンテーションでは51.3 mIOU、低レイテンシでは維持できる。
関連論文リスト
- Towards Visuospatial Cognition via Hierarchical Fusion of Visual Experts [4.454997649515497]
空間的推論を強化するための新しいMLLMである ViCA2 (Visuospatial Cognitive Assistant 2) を紹介する。
ViCA2は、セマンティクスのためのSigLIPと空間構造のためのHieraを統合したデュアルビジョンアーキテクチャと、効率のためのトークン比制御機構を備えている。
また,322,000以上の質問応答対を持つ大規模認知データセットであるViCA322Kを開発した。
論文 参考訳(メタデータ) (2025-05-18T10:57:33Z) - Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient [52.96232442322824]
CoDe(Collaborative Decoding)は、Visual Auto-Regressive (VAR)フレームワーク用に設計された、新しい効率的なデコーディング戦略である。
CoDeは、大規模でのパラメータ要求の大幅な削減と、異なるスケールでの排他的生成パターンという、2つの重要な観察に乗じている。
CoDeは1.7倍のスピードアップを実現し、メモリ使用量を約50%削減し、画像品質を1.95から1.98に改善した。
論文 参考訳(メタデータ) (2024-11-26T15:13:15Z) - LaMamba-Diff: Linear-Time High-Fidelity Diffusion Models Based on Local Attention and Mamba [54.85262314960038]
局所的意図的マンバブロックは、大域的コンテキストと局所的詳細の両方を線形複雑性でキャプチャする。
このモデルは, 256x256の解像度で, ImageNet上の様々なモデルスケールでDiTの性能を上回り, 優れたスケーラビリティを示す。
ImageNet 256x256 と 512x512 の最先端拡散モデルと比較すると,最大 62% GFLOP の削減など,我々の最大のモデルには顕著な利点がある。
論文 参考訳(メタデータ) (2024-08-05T16:39:39Z) - Interpreting and Improving Attention From the Perspective of Large Kernel Convolution [51.06461246235176]
本稿では,LKCA(Large Kernel Convolutional Attention)について紹介する。
LKCAは、特にデータ制約のある設定において、様々な視覚的タスク間での競合性能を達成する。
論文 参考訳(メタデータ) (2024-01-11T08:40:35Z) - ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders [104.05133094625137]
完全畳み込み型マスク付きオートエンコーダフレームワークと,新たなグローバル応答正規化層を提案する。
この自己教師付き学習技術とアーキテクチャ改善の共設計により、純粋なConvNetの性能を大幅に向上させるConvNeXt V2と呼ばれる新しいモデルファミリが生まれる。
論文 参考訳(メタデータ) (2023-01-02T18:59:31Z) - A Close Look at Spatial Modeling: From Attention to Convolution [70.5571582194057]
ビジョントランスフォーマーは最近、洞察に富んだアーキテクチャ設計とアテンションメカニズムのために、多くのビジョンタスクに対して大きな約束をしました。
我々は、自己意図の定式化を一般化し、クエリ非関連なグローバルコンテキストを直接抽象化し、グローバルコンテキストを畳み込みに統合する。
FCViT-S12は14M未満のパラメータを持つため、ImageNet-1K上でのResT-Liteの精度は3.7%向上した。
論文 参考訳(メタデータ) (2022-12-23T19:13:43Z) - VOLO: Vision Outlooker for Visual Recognition [148.12522298731807]
視覚変換器 (ViT) はイメージネット分類において自己注意に基づくモデルの可能性を示している。
我々は、新しい展望の展望を導入し、VoLO(Vision Outlooker)と呼ばれる、シンプルで一般的なアーキテクチャを提示する。
グローバルな依存性モデリングを粗いレベルで重視する自己注意とは異なり、展望はより詳細な機能やコンテキストをトークンに効率的にエンコードする。
実験の結果、私たちのVOLOはImageNet-1K分類で87.1%のトップ1の精度を達成しており、これはこの競合ベンチマークで87%以上の精度で最初のモデルである。
論文 参考訳(メタデータ) (2021-06-24T15:46:54Z) - Bottleneck Transformers for Visual Recognition [97.16013761605254]
視覚タスクに自己注意を組み込んだ強力なバックボーンアーキテクチャであるBoTNetを提案する。
我々は、ImageNetベンチマークにおいて84.7%のトップ1の精度で高いパフォーマンスを達成するモデルを提案する。
私たちのシンプルで効果的なアプローチが、将来のビジョンのための自己注意モデル研究の強力なベースラインになることを期待しています。
論文 参考訳(メタデータ) (2021-01-27T18:55:27Z) - Objectness-Aware Few-Shot Semantic Segmentation [31.13009111054977]
モデル全体のキャパシティを向上し、パフォーマンスを向上させる方法を示す。
我々は、クラス非依存であり、過度に適合しがちな客観性を導入する。
注釈のないカテゴリの例が1つだけあると、実験により、mIoUに関して、我々の手法が最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2020-04-06T19:12:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。