論文の概要: VPNeXt -- Rethinking Dense Decoding for Plain Vision Transformer
- arxiv url: http://arxiv.org/abs/2502.16654v2
- Date: Tue, 25 Feb 2025 03:34:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 11:59:02.963291
- Title: VPNeXt -- Rethinking Dense Decoding for Plain Vision Transformer
- Title(参考訳): VPNeXt -- プレーンビジョントランスのディエンスデコーディングを再考
- Authors: Xikai Tang, Ye Huang, Guangqiang Yin, Lixin Duan,
- Abstract要約: 我々は、Plain Vision Transformer(ViT)の新しいシンプルモデルであるVPNeXtを紹介する。
同じ均一なパラダイムを共有する多くの関連研究とは異なり、VPNeXt は ViT に基づく密度表現の新しい視点を提供する。
- 参考スコア(独自算出の注目度): 15.096167151990626
- License:
- Abstract: We present VPNeXt, a new and simple model for the Plain Vision Transformer (ViT). Unlike the many related studies that share the same homogeneous paradigms, VPNeXt offers a fresh perspective on dense representation based on ViT. In more detail, the proposed VPNeXt addressed two concerns about the existing paradigm: (1) Is it necessary to use a complex Transformer Mask Decoder architecture to obtain good representations? (2) Does the Plain ViT really need to depend on the mock pyramid feature for upsampling? For (1), we investigated the potential underlying reasons that contributed to the effectiveness of the Transformer Decoder and introduced the Visual Context Replay (VCR) to achieve similar effects efficiently. For (2), we introduced the ViTUp module. This module fully utilizes the previously overlooked ViT real pyramid feature to achieve better upsampling results compared to the earlier mock pyramid feature. This represents the first instance of such functionality in the field of semantic segmentation for Plain ViT. We performed ablation studies on related modules to verify their effectiveness gradually. We conducted relevant comparative experiments and visualizations to show that VPNeXt achieved state-of-the-art performance with a simple and effective design. Moreover, the proposed VPNeXt significantly exceeded the long-established mIoU wall/barrier of the VOC2012 dataset, setting a new state-of-the-art by a large margin, which also stands as the largest improvement since 2015.
- Abstract(参考訳): 我々は、Plain Vision Transformer(ViT)の新しいシンプルモデルであるVPNeXtを紹介する。
同じ均一なパラダイムを共有する多くの関連研究とは異なり、VPNeXt は ViT に基づく密度表現の新しい視点を提供する。
より詳しくは、提案されたVPNeXtは、既存のパラダイムに関する2つの懸念に対処している。 1) 優れた表現を得るために、複雑なTransformer Mask Decoderアーキテクチャを使用する必要があるか?
2) Plain ViTは、アップサンプリングのためにモックピラミッド機能に依存する必要があるだろうか?
1)トランスフォーマーデコーダの有効性に寄与する潜在的な要因について検討し,視覚的コンテキストリプレイ(VCR)を導入した。
2)では、ViTUpモジュールを導入しました。
このモジュールは、以前見過ごされたViTの実際のピラミッド機能を完全に活用して、以前のモックピラミッド機能と比較して、アップサンプリング結果の改善を実現している。
これはPlain ViTのセマンティックセグメンテーションの分野における、この機能の最初の例である。
関連モジュールのアブレーション実験を行い,それらの有効性を徐々に検証した。
我々は、VPNeXtが、シンプルで効果的な設計で最先端のパフォーマンスを達成したことを示すため、関連する比較実験と可視化を行った。
さらに、提案されたVPNeXtは、VOC2012データセットの長い間確立されていたmIoUの壁/バリアを大きく超え、新たな最先端を大きなマージンで設定した。
関連論文リスト
- Denoising Vision Transformers [43.03068202384091]
本稿では、DVT(Denoising Vision Transformers)と呼ばれる2段階のDenoisingアプローチを提案する。
第1段階では、画像ごとのニューラルネットワークとの横断的な特徴整合を強制することにより、位置的アーティファクトによって汚染されたものからクリーンな特徴を分離する。
第2段階では、クリーンな特徴を生のViT出力から予測するために軽量なトランスフォーマーブロックを訓練し、クリーンな特徴の導出推定を監督として活用する。
論文 参考訳(メタデータ) (2024-01-05T18:59:52Z) - Minimalist and High-Performance Semantic Segmentation with Plain Vision
Transformers [10.72362704573323]
トランス層に加えて,3$Times$3の畳み込みのみで構成されるモデルであるPlainSegを導入する。
また,階層的特徴の活用を可能にするPlainSeg-Hierを提案する。
論文 参考訳(メタデータ) (2023-10-19T14:01:40Z) - VST++: Efficient and Stronger Visual Saliency Transformer [74.26078624363274]
我々は,グローバルな長距離依存関係を探索する,効率的で強力なVST++モデルを開発した。
我々は、RGB、RGB-D、RGB-T SODベンチマークデータセット上で、トランスフォーマーベースのバックボーンにまたがってモデルを評価した。
論文 参考訳(メタデータ) (2023-10-18T05:44:49Z) - PriViT: Vision Transformers for Fast Private Inference [55.36478271911595]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションのための最先端のディープモデルのバックボーンとして登場した。
ViTは、多くの非ポリノミカル操作のため、セキュアなマルチパーティプロトコルを使用したプライベート推論には適していない。
予測精度を維持しつつ,ViTの非線形性を選択的に"テイラー化"するアルゴリズムであるPriViTを提案する。
論文 参考訳(メタデータ) (2023-10-06T21:45:05Z) - TransVG++: End-to-End Visual Grounding with Language Conditioned Vision
Transformer [188.00681648113223]
視覚的なグラウンド化のための、巧妙で効果的なTransformerベースのフレームワークについて検討する。
TransVGはトランスフォーマーによるマルチモーダル対応を確立し、ボックス座標を直接回帰することで参照領域をローカライズする。
視覚特徴符号化にViT(Vision Transformer)を活用することで、我々のフレームワークを純粋にトランスフォーマーベースにアップグレードする。
論文 参考訳(メタデータ) (2022-06-14T06:27:38Z) - PVT v2: Improved Baselines with Pyramid Vision Transformer [112.0139637538858]
原型ピラミドビジョントランス(PVT v1)の改良
PVT v2は、PVT v1の計算複雑性を線形に減少させる。
分類、検出、セグメンテーションといった基本的なビジョンタスクにおいて、大幅な改善が達成されている。
論文 参考訳(メタデータ) (2021-06-25T17:51:09Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Multi-Scale Vision Longformer: A New Vision Transformer for
High-Resolution Image Encoding [81.07894629034767]
本稿では,新しいViTアーキテクチャであるMulti-Scale Vision Longformerを提案する。
これは、2つの技術を用いて高解像度画像をエンコードするためのquotionosovitskiy 2020 imageのvitを大幅に強化する。
論文 参考訳(メタデータ) (2021-03-29T06:23:20Z) - TransReID: Transformer-based Object Re-Identification [20.02035310635418]
Vision Transformer (ViT) は、オブジェクト再識別(ReID)タスクのための純粋なトランスフォーマーベースのモデルである。
いくつかの適応により、強いベースラインのViT-BoTは、ViTをバックボーンとして構成される。
本稿では、TransReIDと呼ばれる純粋なトランスフォーマーフレームワークを提案し、これはReID研究に純粋なトランスフォーマーを用いた最初の研究である。
論文 参考訳(メタデータ) (2021-02-08T17:33:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。