論文の概要: CAViT -- Channel-Aware Vision Transformer for Dynamic Feature Fusion
- arxiv url: http://arxiv.org/abs/2602.05598v1
- Date: Thu, 05 Feb 2026 12:33:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.924215
- Title: CAViT -- Channel-Aware Vision Transformer for Dynamic Feature Fusion
- Title(参考訳): CAViT -- 動的特徴融合のためのチャネル認識型視覚変換器
- Authors: Aon Safdar, Mohamed Saadeldin,
- Abstract要約: 視覚変換器(ViT)は、自己注意による長距離インタラクションをモデル化することにより、様々なコンピュータビジョンタスクに強い性能を示す。
本稿では,静的パラメータを動的に注目に基づく機能インタラクション機構に置き換える,二重アテンションアーキテクチャである 'CAViT' を紹介する。
自然領域と医療領域の両方にまたがる5つのベンチマークデータセットでCAViTを検証し、標準のViTベースラインを最大3.6%の精度で上回り、FLOPを30%以上削減した。
- 参考スコア(独自算出の注目度): 0.3683202928838613
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (ViTs) have demonstrated strong performance across a range of computer vision tasks by modeling long-range spatial interactions via self-attention. However, channel-wise mixing in ViTs remains static, relying on fixed multilayer perceptrons (MLPs) that lack adaptability to input content. We introduce 'CAViT', a dual-attention architecture that replaces the static MLP with a dynamic, attention-based mechanism for feature interaction. Each Transformer block in CAViT performs spatial self-attention followed by channel-wise self-attention, allowing the model to dynamically recalibrate feature representations based on global image context. This unified and content-aware token mixing strategy enhances representational expressiveness without increasing depth or complexity. We validate CAViT across five benchmark datasets spanning both natural and medical domains, where it outperforms the standard ViT baseline by up to +3.6% in accuracy, while reducing parameter count and FLOPs by over 30%. Qualitative attention maps reveal sharper and semantically meaningful activation patterns, validating the effectiveness of our attention-driven token mixing.
- Abstract(参考訳): 視覚変換器(ViT)は、自己注意による長距離空間相互作用をモデル化することにより、様々なコンピュータビジョンタスクに強い性能を示す。
しかし、VTのチャネルワイド混合は、入力内容への適応性に欠ける固定された多層パーセプトロン(MLP)に依存して、静止状態のままである。
本稿では,静的MLPを動的に注目に基づく機能インタラクション機構に置き換えた二重アテンションアーキテクチャである'CAViT'を紹介する。
CAViTの各トランスフォーマーブロックは、空間的自己アテンションを実行し、次にチャネル的に自己アテンションを行い、グローバルな画像コンテキストに基づいて、モデルが特徴表現を動的に再調整できるようにする。
この統一的でコンテンツ対応のトークン混合戦略は、深さや複雑さを増すことなく表現表現力を高める。
自然領域と医療領域の両方にまたがる5つのベンチマークデータセットでCAViTを検証し、標準のViTベースラインを最大3.6%の精度で上回り、パラメータ数とFLOPを30%以上削減した。
定性的注意マップは、よりシャープで意味のあるアクティベーションパターンを示し、注意駆動型トークンミキシングの有効性を検証する。
関連論文リスト
- Feature Complementation Architecture for Visual Place Recognition [19.779780157790423]
視覚的位置認識(VPR)は、ロボットのローカライゼーションとナビゲーションにおいて重要な役割を果たす。
既存の手法では、典型的には畳み込みニューラルネットワーク(CNN)や視覚変換器(ViT)を特徴抽出器として採用している。
並列CNN-ViTハイブリッドアーキテクチャと動的特徴融合モジュール(DFM)を統合したVPRのためのローカル・グローバル特徴補完ネットワーク(LGCN)を提案する。
論文 参考訳(メタデータ) (2025-06-14T08:32:55Z) - FEAT: Full-Dimensional Efficient Attention Transformer for Medical Video Generation [14.903360987684483]
高品質なダイナミック・メディカル・ビデオのためのフル次元能動的アテンション・トランスフォーマであるFEATを提案する。
FEAT-Sは、最先端モデルのEndoraのパラメータのわずか23%しか持たないが、同等またはそれ以上の性能を発揮することを示した。
論文 参考訳(メタデータ) (2025-06-05T12:31:02Z) - AdaNCA: Neural Cellular Automata As Adaptors For More Robust Vision Transformer [27.921949273217468]
視覚変換器 (ViT) は視覚と視覚の相互作用学習を通して画像分類において顕著な性能を示す。
そこで我々は,視覚変換器用ニューラルセルラーオートマタ (NCA) を提案する。
パラメータの3%未満の増加により、AdaNCAは敵攻撃による精度の10%以上の絶対的な改善に寄与する。
論文 参考訳(メタデータ) (2024-06-12T14:59:12Z) - Accelerating Vision Transformers Based on Heterogeneous Attention
Patterns [89.86293867174324]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの分野で多くの注目を集めている。
層間における異種注意パターンの観測に基づく統合圧縮パイプラインを提案する。
実験的に、DGSSAとGLADの統合圧縮パイプラインは、最大121%のランタイムスループットを加速することができる。
論文 参考訳(メタデータ) (2023-10-11T17:09:19Z) - DAT++: Spatially Dynamic Vision Transformer with Deformable Attention [87.41016963608067]
Deformable Attention Transformer (DAT++)を提案する。
DAT++は、85.9%のImageNet精度、54.5および47.0のMS-COCOインスタンスセグメンテーションmAP、51.5のADE20KセマンティックセグメンテーションmIoUで、様々なビジュアル認識ベンチマークで最先端の結果を達成している。
論文 参考訳(メタデータ) (2023-09-04T08:26:47Z) - A Close Look at Spatial Modeling: From Attention to Convolution [70.5571582194057]
ビジョントランスフォーマーは最近、洞察に富んだアーキテクチャ設計とアテンションメカニズムのために、多くのビジョンタスクに対して大きな約束をしました。
我々は、自己意図の定式化を一般化し、クエリ非関連なグローバルコンテキストを直接抽象化し、グローバルコンテキストを畳み込みに統合する。
FCViT-S12は14M未満のパラメータを持つため、ImageNet-1K上でのResT-Liteの精度は3.7%向上した。
論文 参考訳(メタデータ) (2022-12-23T19:13:43Z) - Bridging the Gap Between Vision Transformers and Convolutional Neural
Networks on Small Datasets [91.25055890980084]
小さなデータセットでスクラッチからトレーニングする場合、ビジョントランスフォーマー(ViT)と畳み込みニューラルネットワーク(CNN)の間には、依然として極端なパフォーマンスギャップがある。
本稿では2つの帰納バイアスを緩和する解として動的ハイブリッドビジョン変換器(DHVT)を提案する。
我々のDHVTは、CIFAR-100が85.68%、22.8Mパラメータが82.3%、ImageNet-1Kが24.0Mパラメータが82.3%の軽量モデルで、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-12T06:54:39Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。