論文の概要: Multi-Scale Vision Longformer: A New Vision Transformer for
High-Resolution Image Encoding
- arxiv url: http://arxiv.org/abs/2103.15358v1
- Date: Mon, 29 Mar 2021 06:23:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-30 15:28:31.832294
- Title: Multi-Scale Vision Longformer: A New Vision Transformer for
High-Resolution Image Encoding
- Title(参考訳): マルチスケールビジョンロングフォーマ : 高分解能画像符号化のための新しいビジョントランスフォーマ
- Authors: Pengchuan Zhang, Xiyang Dai, Jianwei Yang, Bin Xiao, Lu Yuan, Lei
Zhang, Jianfeng Gao
- Abstract要約: 本稿では,新しいViTアーキテクチャであるMulti-Scale Vision Longformerを提案する。
これは、2つの技術を用いて高解像度画像をエンコードするためのquotionosovitskiy 2020 imageのvitを大幅に強化する。
- 参考スコア(独自算出の注目度): 81.07894629034767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a new Vision Transformer (ViT) architecture Multi-Scale
Vision Longformer, which significantly enhances the ViT of
\cite{dosovitskiy2020image} for encoding high-resolution images using two
techniques. The first is the multi-scale model structure, which provides image
encodings at multiple scales with manageable computational cost. The second is
the attention mechanism of vision Longformer, which is a variant of Longformer
\cite{beltagy2020longformer}, originally developed for natural language
processing, and achieves a linear complexity w.r.t. the number of input tokens.
A comprehensive empirical study shows that the new ViT significantly
outperforms several strong baselines, including the existing ViT models and
their ResNet counterparts, and the Pyramid Vision Transformer from a concurrent
work \cite{wang2021pyramid}, on a range of vision tasks, including image
classification, object detection, and segmentation. The models and source code
used in this study will be released to public soon.
- Abstract(参考訳): 本稿では,2つの手法を用いて高解像度画像の符号化を行うために,新しい視覚変換器(ViT)アーキテクチャであるMulti-Scale Vision Longformerを提案する。
ひとつはマルチスケールモデル構造で、複数のスケールで画像エンコーディングを処理可能な計算コストで提供する。
2つ目は、自然言語処理のために開発されたlongformer \cite{beltagy2020longformer}の変種であるvision longformerの注意機構であり、線形複雑性 w.r.t を達成する。
入力トークンの数です
総合的な実証研究により、新しいViTは、既存のViTモデルとそのResNetモデルや、画像分類、オブジェクト検出、セグメンテーションを含む様々な視覚タスクにおいて、同時作業 \cite{wang2021pyramid} からのピラミッドビジョントランスフォーマーなど、いくつかの強力なベースラインを著しく上回っていることが示されている。
この研究で使用されるモデルとソースコードはまもなく公開される予定だ。
関連論文リスト
- ViR: Towards Efficient Vision Retention Backbones [97.93707844681893]
視覚保持ネットワーク(ViR)と呼ばれる新しいコンピュータビジョンモデルを提案する。
ViRは並列および繰り返しの定式化を持ち、高速推論と並列トレーニングと競合性能の最適なバランスをとる。
我々は,様々なデータセットサイズと様々な画像解像度を用いた広範囲な実験により,ViRの有効性を検証した。
論文 参考訳(メタデータ) (2023-10-30T16:55:50Z) - TiC: Exploring Vision Transformer in Convolution [37.50285921899263]
マルチヘッド・セルフアテンション・コンボリューション(MSA-Conv)を提案する。
MSA-Convは、標準、拡張された、深みのあるものを含む一般的な畳み込みの中に自己認識を組み込んでいる。
本稿では,MSA-Convを用いた画像分類の概念実証として,TiC(Vision Transformer in Convolution)を提案する。
論文 参考訳(メタデータ) (2023-10-06T10:16:26Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias [76.16156833138038]
コンボリューション, ie, ViTAEから内在性IBを探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
各トランス層では、ViTAEはマルチヘッド自己保持モジュールと平行な畳み込みブロックを持ち、その特徴は融合されフィードフォワードネットワークに供給される。
論文 参考訳(メタデータ) (2021-06-07T05:31:06Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z) - Towards Coding for Human and Machine Vision: A Scalable Image Coding
Approach [104.02201472370801]
圧縮モデルと生成モデルの両方を活用することにより,新しい画像符号化フレームワークを考案した。
高度な生成モデルを導入することで、コンパクトな特徴表現と参照画素から画像を再構成するフレキシブルネットワークを訓練する。
実験により、人間の視覚的品質と顔のランドマーク検出の両方において、我々の枠組みが優れていることが示された。
論文 参考訳(メタデータ) (2020-01-09T10:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。