論文の概要: Vision Transformers: From Semantic Segmentation to Dense Prediction
- arxiv url: http://arxiv.org/abs/2207.09339v3
- Date: Thu, 12 Oct 2023 09:13:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-15 15:37:15.263813
- Title: Vision Transformers: From Semantic Segmentation to Dense Prediction
- Title(参考訳): 視覚トランスフォーマー:意味セグメンテーションから高密度予測へ
- Authors: Li Zhang, Jiachen Lu, Sixiao Zheng, Xinxuan Zhao, Xiatian Zhu, Yanwei
Fu, Tao Xiang, Jianfeng Feng, Philip H.S. Torr
- Abstract要約: 画像分類における視覚変換器(ViT)は、視覚表現学習の方法論をシフトさせている。
本研究では、高密度視覚予測のためのVTのグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
- 参考スコア(独自算出の注目度): 144.38869017091199
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The emergence of vision transformers (ViTs) in image classification has
shifted the methodologies for visual representation learning. In particular,
ViTs learn visual representation at full receptive field per layer across all
the image patches, in comparison to the increasing receptive fields of CNNs
across layers and other alternatives (e.g., large kernels and atrous
convolution). In this work, for the first time we explore the global context
learning potentials of ViTs for dense visual prediction (e.g., semantic
segmentation). Our motivation is that through learning global context at full
receptive field layer by layer, ViTs may capture stronger long-range dependency
information, critical for dense prediction tasks. We first demonstrate that
encoding an image as a sequence of patches, a vanilla ViT without local
convolution and resolution reduction can yield stronger visual representation
for semantic segmentation. For example, our model, termed as SEgmentation
TRansformer (SETR), excels on ADE20K (50.28% mIoU, the first position in the
test leaderboard on the day of submission) and Pascal Context (55.83% mIoU),
and performs competitively on Cityscapes. For tackling general dense visual
prediction tasks in a cost-effective manner, we further formulate a family of
Hierarchical Local-Global (HLG) Transformers, characterized by local attention
within windows and global-attention across windows in a pyramidal architecture.
Extensive experiments show that our methods achieve appealing performance on a
variety of dense prediction tasks (e.g., object detection and instance
segmentation and semantic segmentation) as well as image classification. Our
code and models are available at https://github.com/fudan-zvg/SETR.
- Abstract(参考訳): 画像分類における視覚トランスフォーマー(vits)の出現は,視覚表現学習の方法論をシフトさせた。
特に、ViTは、すべてのイメージパッチにまたがる層ごとの視覚的表現を学習し、レイヤーやその他の代替(例えば、大きなカーネルやアトラスな畳み込み)におけるCNNの受容的フィールドの増加と比較する。
この研究で、我々は初めて高密度視覚予測(セマンティックセグメンテーションなど)のためのViTのグローバルな文脈学習ポテンシャルを探求した。
我々のモチベーションは、全受動的フィールド層でグローバルなコンテキストを階層的に学習することで、高密度な予測タスクにおいて重要な、より強力な長距離依存性情報を取得することができることである。
まず,局所的な畳み込みや解像度の低下を伴わないバニラ ViT をパッチのシーケンスとして符号化することで,セマンティックセグメンテーションのより強力な視覚表現が得られることを示す。
例えば、セグメンテーショントランスフォーマー (setr) と呼ばれる我々のモデルは、ade20k (50.28% miou, 提出当日テストリーダーボードの最初のポジション) とpascal context (55.83% miou) に優れ、都市景観において競争力がある。
一般の高密度視覚予測タスクにコスト効率で対処するために、階層型局所グロバル変換器(HLG)のファミリーを更に定式化し、窓内部の局所的な注意とピラミッド建築における窓全体のグローバルな注意を特徴とする。
広範な実験により,画像分類だけでなく,様々な密集した予測タスク(オブジェクト検出やインスタンスセグメンテーション,セマンティックセグメンテーションなど)において魅力的な性能が得られることを示した。
私たちのコードとモデルはhttps://github.com/fudan-zvg/setrで利用可能です。
関連論文リスト
- GiT: Towards Generalist Vision Transformer through Universal Language Interface [94.33443158125186]
本稿では,バニラ ViT のみを用いて,様々な視覚タスクに同時に適用可能な,シンプルかつ効果的な GiT フレームワークを提案する。
GiTはマルチタスクのビジュアルモデルで、タスク固有の微調整なしで5つの代表的なベンチマークで共同でトレーニングされている。
論文 参考訳(メタデータ) (2024-03-14T13:47:41Z) - Aligning and Prompting Everything All at Once for Universal Visual
Perception [79.96124061108728]
APEは、さまざまなタスクを実行するために、すべてのことを一度に調整し、促す、普遍的な視覚知覚モデルである。
APEは、言語誘導接地をオープン語彙検出として再構成することで、検出と接地の収束を推し進める。
160以上のデータセットの実験では、APEが最先端のモデルより優れていることが示されている。
論文 参考訳(メタデータ) (2023-12-04T18:59:50Z) - CLIPSelf: Vision Transformer Distills Itself for Open-Vocabulary Dense
Prediction [67.43527289422978]
そこで我々は,CLIPSelfというアプローチを提案し,CLIP ViTの画像レベルの認識能力を局所画像領域に適用する。
オープンボキャブラリオブジェクト検出,セマンティックセグメンテーション,パン光学セグメンテーションを,様々なベンチマークで実現した。
論文 参考訳(メタデータ) (2023-10-02T17:58:52Z) - Semantic Segmentation using Vision Transformers: A survey [0.0]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)はセマンティックセグメンテーションのためのアーキテクチャモデルを提供する。
ViTは画像分類に成功しており、画像のセグメンテーションや物体検出といった密集した予測タスクに直接適用することはできない。
この調査は、ベンチマークデータセットを使用してセマンティックセグメンテーション用に設計されたViTアーキテクチャのパフォーマンスをレビューし、比較することを目的としている。
論文 参考訳(メタデータ) (2023-05-05T04:11:00Z) - What do Vision Transformers Learn? A Visual Exploration [68.50771218442776]
視覚変換器(ViT)はコンピュータビジョンのデファクトアーキテクチャとして急速に普及しつつある。
本稿では、ViT上での可視化の障害に対処し、ViTとCNNの根本的な相違について検討する。
また、DeiT、CoaT、ConViT、PiT、Swin、Twinなど、さまざまなViT変種に対して大規模な可視化を行っています。
論文 参考訳(メタデータ) (2022-12-13T16:55:12Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Efficient Hybrid Transformer: Learning Global-local Context for Urban
Sence Segmentation [11.237929167356725]
都市景観画像のセマンティックセグメンテーションのための効率的なハイブリッドトランスフォーマ(EHT)を提案する。
EHTはCNNとTransformerを利用して、グローバルなローカルコンテキストを学び、特徴表現を強化する。
提案されたEHTはUAVidテストセットで67.0% mIoUを達成し、他の軽量モデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2021-09-18T13:55:38Z) - Do Vision Transformers See Like Convolutional Neural Networks? [45.69780772718875]
近年の研究では、画像分類タスクにおいて、(Vision) Transformer Model (ViT) が同等またはそれ以上の性能を達成できることが示されている。
畳み込みネットワークのように振る舞うのか、それとも全く異なる視覚表現を学ぶのか?
例えば、ViTはすべての層にわたってより均一な表現を持つ。
論文 参考訳(メタデータ) (2021-08-19T17:27:03Z) - BEV-Seg: Bird's Eye View Semantic Segmentation Using Geometry and
Semantic Point Cloud [21.29622194272066]
我々は,BEVにおける画素単位のセマンティックセマンティックセマンティックセマンティクスを予測するタスクである,鳥の目の意味セマンティクスセマンティクスに着目した。
このタスクには、サイドビューからバードビューへのビュー変換と、未確認領域への学習の移行という2つの大きな課題がある。
新たな2段階認識パイプラインは,画素深度を明示的に予測し,効率よく画素セマンティクスと組み合わせる。
論文 参考訳(メタデータ) (2020-06-19T23:30:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。