論文の概要: Enhancing compact convolutional transformers with super attention
- arxiv url: http://arxiv.org/abs/2508.18960v1
- Date: Tue, 26 Aug 2025 12:00:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.829162
- Title: Enhancing compact convolutional transformers with super attention
- Title(参考訳): 超注目によるコンパクト畳み込み変圧器の強化
- Authors: Simpenzwe Honore Leandre, Natenaile Asmamaw Shiferaw, Dillip Rout,
- Abstract要約: 本稿では,トークンミキシング,シーケンスプーリング,畳み込みトークン化器を導入し,最先端の性能を実現するビジョンモデルを提案する。
CIFAR100ベンチマークでは、上位1%のベースラインと上位5%のバリデーション精度を大幅に改善した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose a vision model that adopts token mixing, sequence-pooling, and convolutional tokenizers to achieve state-of-the-art performance and efficient inference in fixed context-length tasks. In the CIFAR100 benchmark, our model significantly improves the baseline of the top 1% and top 5% validation accuracy from 36.50% to 46.29% and 66.33% to 76.31%, while being more efficient than the Scaled Dot Product Attention (SDPA) transformers when the context length is less than the embedding dimension and only 60% the size. In addition, the architecture demonstrates high training stability and does not rely on techniques such as data augmentation like mixup, positional embeddings, or learning rate scheduling. We make our code available on Github.
- Abstract(参考訳): 本稿では, トークン混合, シーケンスプーリング, 畳み込みトークン化器を併用した視覚モデルを提案する。
CIFAR100ベンチマークでは、コンテキスト長が埋め込み寸法よりも小さく、サイズが60%以下であれば、スケールド・ドット・プロダクト・アテンション(SDPA)トランスフォーマーよりも効率的でありながら、上位1%と上位5%の検証精度を36.50%から46.29%、66.33%から76.31%に大幅に改善した。
さらに、アーキテクチャは高いトレーニング安定性を示し、ミックスアップ、位置埋め込み、学習率スケジューリングのようなデータ拡張のようなテクニックに依存しない。
コードはGithubで公開しています。
関連論文リスト
- Supernova: Achieving More with Less in Transformer Architectures [0.0]
Supernovaはデコーダのみの変換器で、計算効率を維持しながらより大きなモデルの性能を実現する。
重要な革新は、最先端の圧縮性能を実現するカスタム128,000バイトレベルのBPEトークンライザである。
論文 参考訳(メタデータ) (2025-07-21T16:27:48Z) - Efficient Leaf Disease Classification and Segmentation using Midpoint Normalization Technique and Attention Mechanism [0.0]
画像前処理のための2段階変換手法であるミドルポイント正規化(MPN)を導入する。
分類パイプラインは、例外的なクラスバランスを維持しながら、93%の精度を達成する。
セグメンテーションタスクでは,MPNを付加した入力を用いて,U-Netアーキテクチャ内の同一の注意ブロックをシームレスに統合する。
論文 参考訳(メタデータ) (2025-05-27T15:14:04Z) - Efficient Token Compression for Vision Transformer with Spatial Information Preserved [59.79302182800274]
トーケン圧縮は、トランスモデルの計算およびメモリ要求の低減に不可欠である。
本稿では,Prune と Merge という,効率的なハードウェア互換のトークン圧縮手法を提案する。
論文 参考訳(メタデータ) (2025-03-30T14:23:18Z) - Transformers with Joint Tokens and Local-Global Attention for Efficient Human Pose Estimation [34.99437411281915]
本稿では,精度,効率,ロバストな2次元ポーズ推定のための2つのViTモデルを提案する。
6つのベンチマーク実験により,提案手法が最先端手法を著しく上回ることを示した。
論文 参考訳(メタデータ) (2025-02-28T22:34:22Z) - Video Prediction Transformers without Recurrence or Convolution [65.93130697098658]
我々は、Gated Transformerを完全にベースとしたフレームワークであるPredFormerを提案する。
本稿では,映像予測の文脈における3次元注意の包括的分析を行う。
精度と効率の両面で大きな改善は、PredFormerの可能性を強調している。
論文 参考訳(メタデータ) (2024-10-07T03:52:06Z) - SegStitch: Multidimensional Transformer for Robust and Efficient Medical Imaging Segmentation [15.811141677039224]
最先端の手法、特にトランスフォーマーを利用した手法は、3Dセマンティックセグメンテーションにおいて顕著に採用されている。
しかし、局所的な特徴や計算の複雑さが無視されているため、普通の視覚変換器は困難に直面する。
本稿では,SegStitchを提案する。SegStitchは変圧器とODEブロックを結合した革新的なアーキテクチャである。
論文 参考訳(メタデータ) (2024-08-01T12:05:02Z) - Point Transformer V3: Simpler, Faster, Stronger [88.80496333515325]
本稿では,ポイントクラウド処理における精度と効率のトレードオフを克服することに焦点を当てる。
本稿では,特定のメカニズムの精度よりもシンプルさと効率を優先するポイントトランスフォーマーV3(PTv3)を提案する。
PTv3は、屋内と屋外の両方のシナリオにまたがる20以上の下流タスクで最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-15T18:59:59Z) - CSWin Transformer: A General Vision Transformer Backbone with
Cross-Shaped Windows [99.36226415086243]
汎用視覚タスクのための効率的なトランスフォーマーベースバックボーンCSWin Transformerを提案する。
トランスフォーマー設計における課題は、グローバルな自己アテンションが計算に非常に高価であるのに対して、ローカルな自己アテンションはトークン間の相互作用のフィールドを制限することが多いことである。
論文 参考訳(メタデータ) (2021-07-01T17:59:56Z) - Inception Convolution with Efficient Dilation Search [121.41030859447487]
拡散畳み込みは、効果的な受容場を制御し、オブジェクトの大規模な分散を処理するための標準的な畳み込みニューラルネットワークの重要な変異体である。
そこで我々は,異なる軸,チャネル,層間の独立な拡散を有する拡張畳み込みの新たな変異体,すなわち開始(拡張)畳み込みを提案する。
本稿では,データに複雑なインセプション・コンボリューションを適合させる実用的な手法を探索し,統計的最適化に基づく簡易かつ効果的な拡張探索アルゴリズム(EDO)を開発した。
論文 参考訳(メタデータ) (2020-12-25T14:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。