論文の概要: Compact Vision Transformer by Reduction of Kernel Complexity
- arxiv url: http://arxiv.org/abs/2507.12780v1
- Date: Thu, 17 Jul 2025 04:41:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.342735
- Title: Compact Vision Transformer by Reduction of Kernel Complexity
- Title(参考訳): カーネル複雑度低減による小型ビジョントランス
- Authors: Yancheng Wang, Yingzhen Yang,
- Abstract要約: KCR変換器(KCR-Transformer)は、可変チャネル選択機能を備えた小型変圧器ブロックである。
これにより、予測精度を維持したり改善したりしながら、視覚変換器のFLOPを削減することができる。
TCR変換器は様々なコンピュータビジョンタスクにおいて優れた性能を発揮する。
- 参考スコア(独自算出の注目度): 8.905020033545643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-attention and transformer architectures have become foundational components in modern deep learning. Recent efforts have integrated transformer blocks into compact neural architectures for computer vision, giving rise to various efficient vision transformers. In this work, we introduce Transformer with Kernel Complexity Reduction, or KCR-Transformer, a compact transformer block equipped with differentiable channel selection, guided by a novel and sharp theoretical generalization bound. KCR-Transformer performs input/output channel selection in the MLP layers of transformer blocks to reduce the computational cost. Furthermore, we provide a rigorous theoretical analysis establishing a tight generalization bound for networks equipped with KCR-Transformer blocks. Leveraging such strong theoretical results, the channel pruning by KCR-Transformer is conducted in a generalization-aware manner, ensuring that the resulting network retains a provably small generalization error. Our KCR-Transformer is compatible with many popular and compact transformer networks, such as ViT and Swin, and it reduces the FLOPs of the vision transformers while maintaining or even improving the prediction accuracy. In the experiments, we replace all the transformer blocks in the vision transformers with KCR-Transformer blocks, leading to KCR-Transformer networks with different backbones. The resulting TCR-Transformers achieve superior performance on various computer vision tasks, achieving even better performance than the original models with even less FLOPs and parameters.
- Abstract(参考訳): 自己意識とトランスフォーマーアーキテクチャは、現代のディープラーニングの基盤となっている。
近年の取り組みでは、トランスフォーマーブロックをコンピュータビジョンのためのコンパクトなニューラルアーキテクチャに統合し、様々な効率的なビジョントランスを生み出している。
本研究では,KCR-Transformerという,チャネル選択の異なる小型変圧器ブロックを,新規で鋭い理論一般化境界で導出する。
KCR-Transformerは、計算コストを削減するために、トランスフォーマーブロックのMLP層で入出力チャネル選択を行う。
さらに、KCR-Transformerブロックを備えたネットワークに対して、厳密な一般化境界を確立する厳密な理論解析を行う。
このような強力な理論的結果を活用することで、KCR-Transformerによるチャネルプルーニングは一般化に留意して行われ、その結果のネットワークが確実に小さな一般化誤差を保持する。
我々の KCR-Transformer は ViT や Swin などの多くの人気かつコンパクトな変換器ネットワークと互換性があり、予測精度を維持したり改善したりしながら、視覚変換器のFLOPを削減する。
実験では、視覚変換器のすべての変圧器ブロックをKCR変換器ブロックに置き換え、異なるバックボーンを持つKCR変換器ネットワークを実現する。
TCR変換器は様々なコンピュータビジョンタスクにおいて優れた性能を実現し、FLOPやパラメータがより少ないオリジナルのモデルよりも優れた性能を実現している。
関連論文リスト
- Universal Approximation of Visual Autoregressive Transformers [28.909655919558706]
分析をVisual Auto Regressive Transformerに拡張します。
Varは、新しい、スケーラブルで粗い次世代の予測フレームワークを使って、画像を生成するための大きなステップである。
本研究は,効率的なVARトランスフォーマー戦略のための重要な設計原則を提供する。
論文 参考訳(メタデータ) (2025-02-10T05:36:30Z) - Efficient Visual Transformer by Learnable Token Merging [8.905020033545643]
本稿では,Learable Token Merging (LTM) または LTM-Transformer を用いた新しい変圧器ブロックを提案する。
LTM-Transformerは、多くの人気かつコンパクトなトランスフォーマーネットワークと互換性がある。
コンパクトで効率的な視覚変換器をレンダリングし、元の視覚変換器と同等またははるかに優れた予測精度でレンダリングする。
論文 参考訳(メタデータ) (2024-07-21T17:09:19Z) - On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。
我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文 参考訳(メタデータ) (2023-11-02T20:03:05Z) - Deep Laparoscopic Stereo Matching with Transformers [46.18206008056612]
トランス構造をうまく利用した自己保持機構は、多くのコンピュータビジョンタスクにおいて有望であることが示されている。
本稿では,CNNの長所と変圧器を統一設計で組み合わせたハイブリッドなディープステレオマッチングフレームワーク(HybridStereoNet)を提案する。
論文 参考訳(メタデータ) (2022-07-25T12:54:32Z) - HiViT: Hierarchical Vision Transformer Meets Masked Image Modeling [126.89573619301953]
我々はHiViT(Hierarchical ViT)という階層型視覚変換器の新しい設計を提案する。
HiViTはMIMで高い効率と優れたパフォーマンスを享受する。
ImageNet-1K上でMAEを実行する場合、HiViT-BはViT-Bよりも0.6%精度が向上し、Swin-Bよりも1.9$times$スピードアップしたと報告している。
論文 参考訳(メタデータ) (2022-05-30T09:34:44Z) - Towards Lightweight Transformer via Group-wise Transformation for
Vision-and-Language Tasks [126.33843752332139]
本稿では,LW-Transformerと呼ばれる視覚・言語タスクのための,普遍的で軽量なトランスフォーマーに対するグループワイズ変換を提案する。
LW-Transformerを一組のTransformerベースのネットワークに適用し、3つの視覚・言語タスクと6つのベンチマークデータセットで定量的に測定する。
実験の結果,LW-Transformerは多数のパラメータや計算を節約しながら,視覚・言語タスクのためのトランスフォーマーネットワークと非常に競合する性能を発揮することがわかった。
論文 参考訳(メタデータ) (2022-04-16T11:30:26Z) - The Nuts and Bolts of Adopting Transformer in GANs [124.30856952272913]
高忠実度画像合成のためのGAN(Generative Adversarial Network)フレームワークにおけるTransformerの特性について検討する。
我々の研究は、STrans-Gと呼ばれる畳み込みニューラルネットワーク(CNN)フリージェネレータであるGANにおけるトランスフォーマーの新しい代替設計につながる。
論文 参考訳(メタデータ) (2021-10-25T17:01:29Z) - On the Power of Saturated Transformers: A View from Circuit Complexity [87.20342701232869]
飽和変圧器はハードアテンション変圧器の限界を超越していることを示す。
硬度から飽和度へのジャンプは、変換器の有効回路深さを$O(log n)$の係数で増加させると解釈できる。
論文 参考訳(メタデータ) (2021-06-30T17:09:47Z) - Glance-and-Gaze Vision Transformer [13.77016463781053]
我々は Glance-and-Gaze Transformer (GG-Transformer) という新しい視覚変換器を提案する。
自然の場面で物体を認識するとき、人間のGlance and Gazeの行動によって動機付けられている。
提案手法は,従来の最先端変圧器よりも一貫した性能を実現することを実証的に実証する。
論文 参考訳(メタデータ) (2021-06-04T06:13:47Z) - Scalable Transformers for Neural Machine Translation [86.4530299266897]
トランスフォーマーは、そのキャパシティとシーケンス生成の並列トレーニングのため、ニューラルネットワーク翻訳(NMT)で広く採用されている。
本稿では,異なるスケールのサブトランスフォーマーを自然に含み,パラメータを共有できる,スケーラブルなトランスフォーマーを提案する。
スケーラブルトランスフォーマーのトレーニングの難しさに対処する3段階のトレーニングスキームが提案されている。
論文 参考訳(メタデータ) (2021-06-04T04:04:10Z) - Incorporating Convolution Designs into Visual Transformers [24.562955955312187]
我々は、低レベル特徴抽出におけるCNNの利点、局所性の向上、長距離依存の確立におけるトランスフォーマーの利点を組み合わせた新しいtextbfConvolution-enhanced image Transformer (CeiT) を提案する。
ImageNetと7つの下流タスクの実験結果は、大量のトレーニングデータや追加のCNN教師を必要とすることなく、従来のトランスフォーマーや最先端CNNと比較してCeiTの有効性と一般化能力を示している。
論文 参考訳(メタデータ) (2021-03-22T13:16:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。