Fugu-MT 論文翻訳(概要): A Survey on Visual Transformer

論文の概要: A Survey on Visual Transformer

arxiv url: http://arxiv.org/abs/2012.12556v3
Date: Sat, 30 Jan 2021 09:33:55 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-25 18:22:52.502384
Title: A Survey on Visual Transformer
Title（参考訳）: 視覚変換器に関する調査
Authors: Kai Han, Yunhe Wang, Hanting Chen, Xinghao Chen, Jianyuan Guo, Zhenhua Liu, Yehui Tang, An Xiao, Chunjing Xu, Yixing Xu, Zhaohui Yang, Yiman Zhang, Dacheng Tao
Abstract要約: Transformerは、主に自己認識機構に基づくディープニューラルネットワークの一種である。本稿では,これら視覚トランスフォーマーモデルを異なるタスクに分類し,その利点と欠点を分析して検討する。
参考スコア（独自算出の注目度）: 108.08449948200844
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transformer, first applied to the field of natural language processing, is a type of deep neural network mainly based on the self-attention mechanism. Thanks to its strong representation capabilities, researchers are looking at ways to apply transformer to computer vision tasks. In a variety of visual benchmarks, transformer-based models perform similar to or better than other types of networks such as convolutional and recurrent networks. Given its high performance and no need for human-defined inductive bias, transformer is receiving more and more attention from the computer vision community. In this paper, we review these visual transformer models by categorizing them in different tasks and analyzing their advantages and disadvantages. The main categories we explore include the backbone network, high/mid-level vision, low-level vision, and video processing. We also take a brief look at the self-attention mechanism in computer vision, as it is the base component in transformer. Furthermore, we include efficient transformer methods for pushing transformer into real device-based applications. Toward the end of this paper, we discuss the challenges and provide several further research directions for visual transformers.
Abstract（参考訳）: Transformerは、自然言語処理の分野に最初に適用され、主に自己認識機構に基づくディープニューラルネットワークの一種である。強力な表現能力のおかげで、研究者はコンピュータビジョンタスクにトランスフォーマーを適用する方法を模索している。様々な視覚的ベンチマークでは、トランスフォーマーベースのモデルは畳み込みネットワークやリカレントネットワークのような他のタイプのネットワークと同等かそれ以上の性能を発揮する。高いパフォーマンスと人間定義の帰納的バイアスを必要としないことから、transformerはコンピュータビジョンコミュニティからますます注目を集めている。本稿では,これら視覚トランスフォーマーモデルを異なるタスクに分類し,その利点と欠点を分析して検討する。私たちが調査する主なカテゴリは、バックボーンネットワーク、高/中レベルのビジョン、低レベルのビジョン、ビデオ処理です。また,トランスの基本要素であるコンピュータビジョンの自己注意機構についても,簡単な考察を行った。さらに、トランスフォーマーを実際のデバイスベースアプリケーションへプッシュする効率的なトランスフォーマー手法も含む。本稿では,この課題について論じ,視覚変換器のさらなる研究の方向性について述べる。

関連論文リスト

DuoFormer: Leveraging Hierarchical Representations by Local and Global Attention Vision Transformer [1.456352735394398]
本稿では、畳み込みニューラルネットワーク(CNN)の特徴抽出機能と視覚変換器(ViT)の高度な表現可能性とを包括的に統合した新しい階層型トランスフォーマーモデルを提案する。インダクティブバイアスの欠如と、ViTの広範囲なトレーニングデータセットへの依存に対処するため、我々のモデルはCNNバックボーンを使用して階層的な視覚表現を生成する。これらの表現は、革新的なパッチトークン化プロセスを通じてトランスフォーマー入力に適応し、継承されたマルチスケールの帰納バイアスを保存する。
論文参考訳（メタデータ） (2025-06-15T22:42:57Z)
Image Recognition with Online Lightweight Vision Transformer: A Survey [53.005965123414576]
本稿では、画像認識のための軽量な視覚変換器を作成するための様々なオンライン戦略について調査する。我々は、ImageNet-1Kベンチマークにおいて、各トピックに関する関連する探索を評価した。視覚変換器の軽量化における今後の研究の方向性と今後の課題を提案する。
論文参考訳（メタデータ） (2025-05-06T02:07:54Z)
Understanding Transformer-based Vision Models through Inversion [0.8124699127636158]
本研究では,本手法のより効率的な適用を可能にする新しいモジュラー変動を導入することにより,特徴の逆転を再考する。本研究では,大規模変換器を用いた視覚モデル,検出変換器,視覚変換器に対して,我々の手法を体系的に適用する方法を実証する。我々の分析では、これらのモデルがどのようにコンテキスト形状と画像の詳細をエンコードするか、それらの層がどのように相関し、色摂動に対する堅牢性を示す。
論文参考訳（メタデータ） (2024-12-09T14:43:06Z)
ViTs are Everywhere: A Comprehensive Study Showcasing Vision Transformers in Different Domain [0.0]
ビジョントランスフォーマー(ViT)は、多くの視覚問題に対して、より人気があり支配的なソリューションになりつつある。 ViTは畳み込みニューラルネットワーク(CNN)でいくつかの困難を克服できる
論文参考訳（メタデータ） (2023-10-09T12:31:30Z)
Interpret Vision Transformers as ConvNets with Dynamic Convolutions [70.59235381143831]
我々は、ビジョントランスフォーマーを動的畳み込みを備えたConvNetと解釈し、既存のトランスフォーマーと動的コンバータを統一されたフレームワークで特徴付けることができる。 ConvNetsの設計空間から視覚変換器を考えることができるため、我々の解釈もネットワーク設計を導くことができる。
論文参考訳（メタデータ） (2023-09-19T16:00:49Z)
A survey of the Vision Transformers and their CNN-Transformer based Variants [0.48163317476588563]
ビジョントランスフォーマーは、様々なコンピュータビジョンアプリケーションのための畳み込みニューラルネットワーク(CNN)の代替として人気がある。これらのトランスフォーマーは、画像のグローバルな関係にフォーカスする能力を持ち、大きな学習能力を提供する。近年,視覚変換器による畳み込み操作と自己認識機構のハイブリッド化が出現し,局所的およびグローバルな画像表現の両面を利用した。
論文参考訳（メタデータ） (2023-05-17T01:27:27Z)
Advances in Medical Image Analysis with Vision Transformers: A Comprehensive Review [6.953789750981636]
医療画像におけるトランスフォーマーの応用に関する百科事典のレビューを行う。具体的には,医療画像解析タスクにおけるトランスフォーマー関連文献の体系的,徹底的なレビューを行う。
論文参考訳（メタデータ） (2023-01-09T16:56:23Z)
Vision Transformers for Action Recognition: A Survey [41.69370782177517]
コンピュータビジョン問題を解決する強力なツールとして、ビジョントランスフォーマーが登場している。最近の技術は、多数のビデオ関連タスクを解決するために、画像領域を超えたトランスフォーマーの有効性を証明している。人間の行動認識は、広く応用されているため、研究コミュニティから特別に注目を集めている。
論文参考訳（メタデータ） (2022-09-13T02:57:05Z)
3D Vision with Transformers: A Survey [114.86385193388439]
自然言語処理におけるトランスフォーマーアーキテクチャの成功は、コンピュータビジョン分野の注目を集めている。本稿では,異なる3次元視覚タスクのための100以上のトランスフォーマー手法の体系的,徹底的なレビューを行う。我々は3次元視覚におけるトランスフォーマー設計について議論し、様々な3次元表現でデータを処理できるようにする。
論文参考訳（メタデータ） (2022-08-08T17:59:11Z)
Can Vision Transformers Perform Convolution? [78.42076260340869]
画像パッチを入力とする単一のViT層が任意の畳み込み操作を構成的に実行可能であることを示す。我々は、CNNを表現するビジョントランスフォーマーのヘッド数を低くする。
論文参考訳（メタデータ） (2021-11-02T03:30:17Z)
Transformers Solve the Limited Receptive Field for Monocular Depth Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文参考訳（メタデータ） (2021-03-22T18:00:13Z)
Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文参考訳（メタデータ） (2021-01-04T18:57:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。