論文の概要: Polyline Path Masked Attention for Vision Transformer
- arxiv url: http://arxiv.org/abs/2506.15940v1
- Date: Thu, 19 Jun 2025 00:52:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:04.898239
- Title: Polyline Path Masked Attention for Vision Transformer
- Title(参考訳): ビジョントランスのためのポリリンパスマスケッドアテンション
- Authors: Zhongchen Zhao, Chaodong Xiao, Hui Lin, Qi Xie, Lei Zhang, Deyu Meng,
- Abstract要約: ビジョントランスフォーマー (ViT) はコンピュータビジョンにおいて大きな成功を収めた。
Mamba2は自然言語処理タスクにおいて大きな可能性を実証している。
本稿では,VTの自己注意機構とMamba2の強化された構造化マスクを統合するポリリンパス仮面注意(PPMA)を提案する。
- 参考スコア(独自算出の注目度): 48.25001539205017
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Global dependency modeling and spatial position modeling are two core issues of the foundational architecture design in current deep learning frameworks. Recently, Vision Transformers (ViTs) have achieved remarkable success in computer vision, leveraging the powerful global dependency modeling capability of the self-attention mechanism. Furthermore, Mamba2 has demonstrated its significant potential in natural language processing tasks by explicitly modeling the spatial adjacency prior through the structured mask. In this paper, we propose Polyline Path Masked Attention (PPMA) that integrates the self-attention mechanism of ViTs with an enhanced structured mask of Mamba2, harnessing the complementary strengths of both architectures. Specifically, we first ameliorate the traditional structured mask of Mamba2 by introducing a 2D polyline path scanning strategy and derive its corresponding structured mask, polyline path mask, which better preserves the adjacency relationships among image tokens. Notably, we conduct a thorough theoretical analysis on the structural characteristics of the proposed polyline path mask and design an efficient algorithm for the computation of the polyline path mask. Next, we embed the polyline path mask into the self-attention mechanism of ViTs, enabling explicit modeling of spatial adjacency prior. Extensive experiments on standard benchmarks, including image classification, object detection, and segmentation, demonstrate that our model outperforms previous state-of-the-art approaches based on both state-space models and Transformers. For example, our proposed PPMA-T/S/B models achieve 48.7%/51.1%/52.3% mIoU on the ADE20K semantic segmentation task, surpassing RMT-T/S/B by 0.7%/1.3%/0.3%, respectively. Code is available at https://github.com/zhongchenzhao/PPMA.
- Abstract(参考訳): グローバルな依存性モデリングと空間的位置モデリングは、現在のディープラーニングフレームワークにおける基礎的アーキテクチャ設計の2つの中核的な問題である。
近年、ビジョントランスフォーマー(ViT)は、自己保持機構の強力なグローバル依存性モデリング機能を活用し、コンピュータビジョンにおいて顕著な成功を収めている。
さらに、Mamba2は、構造化マスクを介して空間的隣接性を明示的にモデル化することで、自然言語処理タスクにおいて有意義な可能性を証明している。
本稿では,両アーキテクチャの相補的強度を利用して,VTの自己注意機構とMamba2の強化された構造化マスクを統合したポリラインパスマスケッドアテンション(PPMA)を提案する。
具体的には,Mamba2の従来の構造マスクを2次元ポリラインパススキャン戦略を導入して改良し,対応する構造マスクであるポリラインパスマスクを導出し,画像トークン間の隣接関係をよりよく保存する。
特に,提案したポリラインパスマスクの構造的特性に関する詳細な理論的解析を行い,ポリラインパスマスクの効率的な計算アルゴリズムを設計する。
次に、ポリリンパスマスクをViTの自己保持機構に組み込み、空間的隣接性の明示的なモデリングを可能にする。
画像分類,オブジェクト検出,セグメンテーションなど,標準ベンチマークの広範な実験により,我々のモデルは,状態空間モデルとトランスフォーマーの両方に基づいて,従来の最先端アプローチよりも優れていることを示した。
例えば、提案したPPMA-T/S/BモデルはADE20Kセマンティックセグメンテーションタスクにおいて48.7%/51.1%/52.3% mIoUを達成し、それぞれRTT-T/S/Bを0.7%/1.3%/0.3%上回った。
コードはhttps://github.com/zhongchenzhao/PPMA.comで入手できる。
関連論文リスト
- The Missing Point in Vision Transformers for Universal Image Segmentation [17.571552686063335]
マスク生成を分類から分離する2段階セグメンテーションフレームワークであるViT-Pを紹介する。
ViT-Pは、事前訓練のないアダプタとして機能し、様々な事前訓練された視覚変換器の統合を可能にする。
COCO、ADE20K、Cityscapesの各データセットにわたる実験は、ViT-Pの有効性を検証する。
論文 参考訳(メタデータ) (2025-05-26T10:29:13Z) - MaskGWM: A Generalizable Driving World Model with Video Mask Reconstruction [8.503246256880612]
ビデオマスク再構成を具現化した一般化可能な世界モデルであるMaskGWMを提案する。
本モデルには,長期水平予測に着目したMaskGWM-longと,マルチビュー生成専用のMaskGWM-mviewの2種類が含まれている。
論文 参考訳(メタデータ) (2025-02-17T10:53:56Z) - Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Hyper-Transformer for Amodal Completion [82.4118011026855]
アモーダルオブジェクト補完は、可視セグメントと背景情報に基づいてオブジェクトの見えない部分を予測する複雑なタスクである。
我々はHyper-Transformer Amodal Network(H-TAN)と呼ばれる新しいフレームワークを紹介する。
このフレームワークは、動的畳み込みヘッドを備えたハイパートランスを用いて、形状の事前を直接学習し、アモーダルマスクを正確に予測する。
論文 参考訳(メタデータ) (2024-05-30T11:11:54Z) - i-MAE: Are Latent Representations in Masked Autoencoders Linearly Separable? [26.146459754995597]
マスク付き画像モデリング(MIM)は視覚領域における自己監督型事前学習の強力なアプローチとして認識されている。
本稿では,表現能力を高めるために,インタラクティブなMasked Autoencoders (i-MAE) フレームワークを提案する。
潜在表現の特徴を質的に解析することに加えて,線形分離性の存在と潜在空間における意味論の程度について検討する。
論文 参考訳(メタデータ) (2022-10-20T17:59:54Z) - AFNet-M: Adaptive Fusion Network with Masks for 2D+3D Facial Expression
Recognition [1.8604727699812171]
2D+3D顔表情認識(FER)は、照明の変化に効果的に対応し、バリエーションを呈することができる。
ほとんどのディープラーニングベースのアプローチは、単純な融合戦略を採用している。
2D+3D FERのためのマスク付き適応核融合ネットワーク (AFNet-M) を提案する。
論文 参考訳(メタデータ) (2022-05-24T04:56:55Z) - ConvMAE: Masked Convolution Meets Masked Autoencoders [65.15953258300958]
機能事前トレーニングとマルチスケールハイブリッド畳み込み変換アーキテクチャのためのマスク付き自動エンコーディングは、ViTの可能性をさらに解き放つことができる。
我々のConvMAEフレームワークは、マスクの自動符号化方式により、マルチスケールのハイブリッド畳み込み変換器がより識別的な表現を学習できることを実証している。
事前訓練したConvMAEモデルに基づいて、ConvMAE-Baseは画像Net-1Kの微調整精度をMAE-Baseと比較して1.4%改善する。
論文 参考訳(メタデータ) (2022-05-08T15:12:19Z) - Mask Attention Networks: Rethinking and Strengthen Transformer [70.95528238937861]
Transformerは、セルフアテンションネットワーク(SAN)とフィードフォワードネットワーク(FFN)の2つのサブレイヤからなる注目ベースのニューラルネットワークです。
論文 参考訳(メタデータ) (2021-03-25T04:07:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。