論文の概要: A Computationally Efficient Multidimensional Vision Transformer
- arxiv url: http://arxiv.org/abs/2602.19982v1
- Date: Mon, 23 Feb 2026 15:49:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.88825
- Title: A Computationally Efficient Multidimensional Vision Transformer
- Title(参考訳): 計算効率の良い多次元視覚変換器
- Authors: Alaa El Ichi, Khalide Jbilou,
- Abstract要約: ビジョントランスフォーマーは、幅広いコンピュータビジョンタスクにおいて最先端のパフォーマンスを達成したが、その実践的展開は高い計算とメモリコストによって制限されている。
我々は、コサイン製品(Cproduct)上に構築されたビジョントランスフォーマーのための新しいテンソルベースのフレームワークを導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers have achieved state-of-the-art performance in a wide range of computer vision tasks, but their practical deployment is limited by high computational and memory costs. In this paper, we introduce a novel tensor-based framework for Vision Transformers built upon the Tensor Cosine Product (Cproduct). By exploiting multilinear structures inherent in image data and the orthogonality of cosine transforms, the proposed approach enables efficient attention mechanisms and structured feature representations. We develop the theoretical foundations of the tensor cosine product, analyze its algebraic properties, and integrate it into a new Cproduct-based Vision Transformer architecture (TCP-ViT). Numerical experiments on standard classification and segmentation benchmarks demonstrate that the proposed method achieves a uniform 1/C parameter reduction (where C is the number of channels) while maintaining competitive accuracy.
- Abstract(参考訳): ビジョントランスフォーマーは、幅広いコンピュータビジョンタスクにおいて最先端のパフォーマンスを達成したが、その実際の展開は高い計算とメモリコストによって制限されている。
本稿では,テンソルコサイン製品(Cproduct)上に構築されたビジョントランスフォーマーのためのテンソルベースの新しいフレームワークを提案する。
画像データに固有の多重線形構造とコサイン変換の直交性を利用して,効率的な注意機構と構造的特徴表現を実現する。
我々は、テンソルコサイン積の理論基盤を開発し、その代数的性質を分析し、それを新しいCproduct-based Vision Transformer Architecture (TCP-ViT)に統合する。
標準分類とセグメンテーションベンチマークの数値実験により, 提案手法は, 競合精度を維持しつつ, 均一な1/Cパラメータ削減(チャネル数C)を実現することを示した。
関連論文リスト
- ECViT: Efficient Convolutional Vision Transformer with Local-Attention and Multi-scale Stages [0.0]
ビジョントランスフォーマー(ViT)は、長距離依存をモデル化するために自己アテンションを活用することで、コンピュータビジョンに革命をもたらした。
我々は,CNNとトランスフォーマーの強度を効果的に組み合わせたハイブリッドアーキテクチャである,効率的な畳み込み視覚変換器(ECViT)を提案する。
論文 参考訳(メタデータ) (2025-04-21T03:00:17Z) - Exploring the Integration of Key-Value Attention Into Pure and Hybrid Transformers for Semantic Segmentation [0.0]
KV Transformerは、合成、NLP、画像分類タスクにおいて有望な結果を示す。
これは特に、局所的な推論が必要な場合(例えば、医療スクリーニングなど)に起因している。
論文 参考訳(メタデータ) (2025-03-24T16:38:31Z) - Self-Supervised Pre-Training for Table Structure Recognition Transformer [25.04573593082671]
テーブル構造認識変換器のための自己教師付き事前学習(SSP)手法を提案する。
線形射影変換器とハイブリッドCNN変換器のパフォーマンスギャップは、TSRモデルにおける視覚エンコーダのSSPにより緩和できる。
論文 参考訳(メタデータ) (2024-02-23T19:34:06Z) - GTA: A Geometry-Aware Attention Mechanism for Multi-View Transformers [63.41460219156508]
既存の位置符号化方式は3次元視覚タスクに最適であると主張する。
トークンの幾何学的構造を相対変換として符号化する幾何学的注意機構を提案する。
我々は、Geometric Transform Attention (GTA) と呼ばれる、最先端のトランスフォーマーベースNVSモデルの学習効率と性能を向上させることに留意している。
論文 参考訳(メタデータ) (2023-10-16T13:16:09Z) - Vision Transformer with Quadrangle Attention [76.35955924137986]
窓面に基づく注意を一般的な四角形定式化に拡張する新しい四角形注意法(QA)を提案する。
提案手法では,既定のウィンドウを対象の四角形に変換するために,変換行列を予測し,エンドツーエンドで学習可能な四角形回帰モジュールを用いる。
QAをプレーンかつ階層的な視覚変換器に統合し、QFormerという名の新しいアーキテクチャを作成します。
論文 参考訳(メタデータ) (2023-03-27T11:13:50Z) - Patch Similarity Aware Data-Free Quantization for Vision Transformers [2.954890575035673]
Patch similarity Aware data-free Quantization framework for Vision Transformersを提案する。
本研究では,ガウス雑音と実画像の処理において,自己アテンションモジュールの特性を解析し,一般的な相違点(パッチ類似点)を明らかにする。
PSAQ-ViTの有効性を検証するため,様々なベンチマークで実験およびアブレーション実験を行った。
論文 参考訳(メタデータ) (2022-03-04T11:47:20Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Analogous to Evolutionary Algorithm: Designing a Unified Sequence Model [58.17021225930069]
実演的進化アルゴリズム(EA)と類似した視覚変換器の合理性について説明する。
我々は、より効率的なEATモデルを提案し、様々なタスクに柔軟に対処するタスク関連ヘッドを設計する。
近年のビジョントランスに比べて,イメージネット分類作業における最先端の成果が得られている。
論文 参考訳(メタデータ) (2021-05-31T16:20:03Z) - Co-Scale Conv-Attentional Image Transformers [22.834316796018705]
Co-scale conv-attentional image Transformers (CoaT) は、コスケールおよびconv-attentional mechanismを備えたTransformerベースの画像分類器である。
ImageNetでは、比較的小さなCoaTモデルは、同様のサイズの畳み込みニューラルネットワークや画像/画像変換器と比較して優れた分類結果を得る。
論文 参考訳(メタデータ) (2021-04-13T17:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。