Fugu-MT 論文翻訳(概要): Vision Transformer: Vit and its Derivatives

論文の概要: Vision Transformer: Vit and its Derivatives

arxiv url: http://arxiv.org/abs/2205.11239v2
Date: Tue, 24 May 2022 14:08:01 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-29 20:37:52.395384
Title: Vision Transformer: Vit and its Derivatives
Title（参考訳）: Vision Transformer: Vitとその誘導体
Authors: Zujun Fu
Abstract要約: Vision Transformer (ViT)は、ImageNet、COCO、ADE20kといったいくつかのベンチマークで非常に優れたパフォーマンスを達成するために、優れたモデリング機能に依存している。 ViTは自然言語処理における自己認識機構にインスパイアされ、単語の埋め込みをパッチ埋め込みに置き換える。本稿では、ViTの誘導体とViTの他の分野との相互利用について述べる。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transformer, an attention-based encoder-decoder architecture, has not only revolutionized the field of natural language processing (NLP), but has also done some pioneering work in the field of computer vision (CV). Compared to convolutional neural networks (CNNs), the Vision Transformer (ViT) relies on excellent modeling capabilities to achieve very good performance on several benchmarks such as ImageNet, COCO, and ADE20k. ViT is inspired by the self-attention mechanism in natural language processing, where word embeddings are replaced with patch embeddings. This paper reviews the derivatives of ViT and the cross-applications of ViT with other fields.
Abstract（参考訳）: Transformerは注目に基づくエンコーダデコーダアーキテクチャであり、自然言語処理(NLP)の分野に革命をもたらしただけでなく、コンピュータビジョン(CV)の分野でも先駆的な業績を残している。畳み込みニューラルネットワーク(CNN)と比較して、ViT(Vision Transformer)は、ImageNet、COCO、ADE20kといったいくつかのベンチマークで非常に優れたパフォーマンスを達成するために優れたモデリング能力に依存している。 ViTは自然言語処理における自己認識機構にインスパイアされ、単語の埋め込みをパッチ埋め込みに置き換える。本稿では,ViTの誘導体と他の分野との相互利用について述べる。

関連論文リスト

VORTEX: Challenging CNNs at Texture Recognition by using Vision Transformers with Orderless and Randomized Token Encodings [1.6594406786473057]
視覚変換器(ViT)は数年前に導入されたが、そのテクスチャ認識能力についてはほとんど知られていない。テクスチャ解析にViTを効果的に活用するVORTEXを提案する。 VORTEXを9つの多様なテクスチャデータセット上で評価し、SOTAの性能を達成または超越する能力を実証した。
論文参考訳（メタデータ） (2025-03-09T00:36:02Z)
ViTs are Everywhere: A Comprehensive Study Showcasing Vision Transformers in Different Domain [0.0]
ビジョントランスフォーマー(ViT)は、多くの視覚問題に対して、より人気があり支配的なソリューションになりつつある。 ViTは畳み込みニューラルネットワーク(CNN)でいくつかの困難を克服できる
論文参考訳（メタデータ） (2023-10-09T12:31:30Z)
PriViT: Vision Transformers for Fast Private Inference [55.36478271911595]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションのための最先端のディープモデルのバックボーンとして登場した。 ViTは、多くの非ポリノミカル操作のため、セキュアなマルチパーティプロトコルを使用したプライベート推論には適していない。予測精度を維持しつつ,ViTの非線形性を選択的に"テイラー化"するアルゴリズムであるPriViTを提案する。
論文参考訳（メタデータ） (2023-10-06T21:45:05Z)
Making Vision Transformers Truly Shift-Equivariant [20.61570323513044]
ビジョントランスフォーマー (ViT) は、コンピュータビジョンのためのディープネットアーキテクチャの1つとなっている。トークン化,自己アテンション,パッチマージ,位置エンコーディングなど,各モジュールに対する新しいデータ適応設計を導入する。画像分類とセマンティックセグメンテーションタスクにおける適応モデルの評価を行った。
論文参考訳（メタデータ） (2023-05-25T17:59:40Z)
A Survey of Visual Transformers [30.082304742571598]
注意に基づくエンコーダデコーダアーキテクチャであるTransformerは、自然言語処理の分野に革命をもたらした。コンピュータビジョン(CV)分野へのトランスフォーマーアーキテクチャの適用に関する先駆的な研究が最近行われている。我々は,3つの基本的なCVタスクに対して,100以上の異なる視覚変換器の総合的なレビューを行った。
論文参考訳（メタデータ） (2021-11-11T07:56:04Z)
Can Vision Transformers Perform Convolution? [78.42076260340869]
画像パッチを入力とする単一のViT層が任意の畳み込み操作を構成的に実行可能であることを示す。我々は、CNNを表現するビジョントランスフォーマーのヘッド数を低くする。
論文参考訳（メタデータ） (2021-11-02T03:30:17Z)
Probing Inter-modality: Visual Parsing with Self-Attention for Vision-Language Pre-training [139.4566371416662]
Vision-Language Pre-Trainingは、画像とテキストのペアからマルチモーダル表現を学ぶことを目的としている。 CNNは、長距離依存をモデル化する際の局所受容野の弱点により、視覚的関係学習に制限がある。
論文参考訳（メタデータ） (2021-06-25T08:04:25Z)
Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。 ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文参考訳（メタデータ） (2021-05-21T17:59:18Z)
Rethinking the Design Principles of Robust Vision Transformer [28.538786330184642]
視覚トランスフォーマー (vit) は、従来の畳み込みニューラルネットワーク (cnns) をほとんどの視覚タスクで上回っていることを示した。本稿では, ViTs の設計原理を堅牢性に基づいて再考する。堅牢な設計部品を組み合わせることで、ロバストビジョントランス(RVT)を提案します。
論文参考訳（メタデータ） (2021-05-17T15:04:15Z)
Multi-Scale Vision Longformer: A New Vision Transformer for High-Resolution Image Encoding [81.07894629034767]
本稿では,新しいViTアーキテクチャであるMulti-Scale Vision Longformerを提案する。これは、2つの技術を用いて高解像度画像をエンコードするためのquotionosovitskiy 2020 imageのvitを大幅に強化する。
論文参考訳（メタデータ） (2021-03-29T06:23:20Z)
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale [112.94212299087653]
ビジョントランスフォーマー(ViT)は、最先端の畳み込みネットワークと比較して優れた結果を得ると同時に、トレーニングする計算リソースを著しく少なくする。
論文参考訳（メタデータ） (2020-10-22T17:55:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。