Fugu-MT 論文翻訳(概要): Visual Representation Learning with Transformer: A Sequence-to-Sequence Perspective

論文の概要: Visual Representation Learning with Transformer: A Sequence-to-Sequence Perspective

arxiv url: http://arxiv.org/abs/2207.09339v1
Date: Tue, 19 Jul 2022 15:49:35 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-20 14:09:04.798908
Title: Visual Representation Learning with Transformer: A Sequence-to-Sequence Perspective
Title（参考訳）: 変換器を用いた視覚表現学習:シーケンスからシーケンスへの視点
Authors: Li Zhang, Sixiao Zheng, Jiachen Lu, Xinxuan Zhao, Xiatian Zhu, Yanwei Fu, Tao Xiang, Jianfeng Feng
Abstract要約: 本稿では,視覚表現学習をシーケンス・ツー・シーケンス予測タスクとして扱う。具体的には,イメージをパッチのシーケンスとしてエンコードする純粋なトランスフォーマーをデプロイする。グローバルコンテキストをTransformerの各レイヤでモデル化することで、より強力な視覚表現を学習して、視覚タスクのより優れた処理を行うことができる。
参考スコア（独自算出の注目度）: 105.6545616020383
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Visual representation learning is the key of solving various vision problems. Relying on the seminal grid structure priors, convolutional neural networks (CNNs) have been the de facto standard architectures of most deep vision models. For instance, classical semantic segmentation methods often adopt a fully-convolutional network (FCN) with an encoder-decoder architecture. The encoder progressively reduces the spatial resolution and learns more abstract visual concepts with larger receptive fields. Since context modeling is critical for segmentation, the latest efforts have been focused on increasing the receptive field, through either dilated (i.e., atrous) convolutions or inserting attention modules. However, the FCN-based architecture remains unchanged. In this paper, we aim to provide an alternative perspective by treating visual representation learning generally as a sequence-to-sequence prediction task. Specifically, we deploy a pure Transformer to encode an image as a sequence of patches, without local convolution and resolution reduction. With the global context modeled in every layer of the Transformer, stronger visual representation can be learned for better tackling vision tasks. In particular, our segmentation model, termed as SEgmentation TRansformer (SETR), excels on ADE20K (50.28% mIoU, the first position in the test leaderboard on the day of submission), Pascal Context (55.83% mIoU) and reaches competitive results on Cityscapes. Further, we formulate a family of Hierarchical Local-Global (HLG) Transformers characterized by local attention within windows and global-attention across windows in a hierarchical and pyramidal architecture. Extensive experiments show that our method achieves appealing performance on a variety of visual recognition tasks (e.g., image classification, object detection and instance segmentation and semantic segmentation).
Abstract（参考訳）: 視覚表現学習は様々な視覚問題を解決する鍵となる。畳み込みニューラルネットワーク(convolutional neural networks, cnns)は、先駆的なグリッド構造を前提として、ほとんどのディープビジョンモデルのデファクトスタンダードなアーキテクチャである。例えば、古典的なセマンティックセグメンテーション法は、エンコーダ-デコーダアーキテクチャを備えた完全畳み込みネットワーク(FCN)を採用することが多い。エンコーダは空間分解能を徐々に減少させ、より大きな受容野を持つより抽象的な視覚概念を学ぶ。文脈モデリングはセグメンテーションに欠かせないため、最新の取り組みは、拡張された(アトラスな)畳み込みや注意モジュールの挿入を通じて、受容領域の増大に焦点を当てている。しかし、FCNベースのアーキテクチャは変わっていない。本稿では,視覚表現学習をシーケンス・ツー・シーケンス予測タスクとして一般的に扱うことで,新たな視点を提供する。具体的には、ローカルな畳み込みや解像度の低減なしに、パッチのシーケンスとして画像をエンコードする純粋なトランスフォーマーをデプロイする。グローバルコンテキストをTransformerの各レイヤでモデル化することで、視覚タスクのより優れた処理のために、より強力な視覚表現を学ぶことができる。特に,セグメンテーションTRansformer (SETR) と呼ばれるセグメンテーションモデルでは,ADE20K (50.28% mIoU),Pascal Context (55.83% mIoU) を抜粋し,Cityscapes 上での競争結果に到達している。さらに,階層的かつピラミッド的アーキテクチャにおいて,窓内の局所的注意と窓越しのグローバルアテンションを特徴とする階層的局所的グローバルトランスフォーマのファミリを定式化する。画像分類,オブジェクト検出,インスタンスセグメンテーション,セマンティックセグメンテーションなど,様々な視覚的認識タスクにおいて,本手法が魅力的な性能を発揮することを示す。

関連論文リスト

GiT: Towards Generalist Vision Transformer through Universal Language Interface [94.33443158125186]
本稿では,バニラ ViT のみを用いて,様々な視覚タスクに同時に適用可能な,シンプルかつ効果的な GiT フレームワークを提案する。 GiTはマルチタスクのビジュアルモデルで、タスク固有の微調整なしで5つの代表的なベンチマークで共同でトレーニングされている。
論文参考訳（メタデータ） (2024-03-14T13:47:41Z)
Aligning and Prompting Everything All at Once for Universal Visual Perception [79.96124061108728]
APEは、さまざまなタスクを実行するために、すべてのことを一度に調整し、促す、普遍的な視覚知覚モデルである。 APEは、言語誘導接地をオープン語彙検出として再構成することで、検出と接地の収束を推し進める。 160以上のデータセットの実験では、APEが最先端のモデルより優れていることが示されている。
論文参考訳（メタデータ） (2023-12-04T18:59:50Z)
CLIPSelf: Vision Transformer Distills Itself for Open-Vocabulary Dense Prediction [67.43527289422978]
そこで我々は,CLIPSelfというアプローチを提案し,CLIP ViTの画像レベルの認識能力を局所画像領域に適用する。オープンボキャブラリオブジェクト検出,セマンティックセグメンテーション,パン光学セグメンテーションを,様々なベンチマークで実現した。
論文参考訳（メタデータ） (2023-10-02T17:58:52Z)
Semantic Segmentation using Vision Transformers: A survey [0.0]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)はセマンティックセグメンテーションのためのアーキテクチャモデルを提供する。 ViTは画像分類に成功しており、画像のセグメンテーションや物体検出といった密集した予測タスクに直接適用することはできない。この調査は、ベンチマークデータセットを使用してセマンティックセグメンテーション用に設計されたViTアーキテクチャのパフォーマンスをレビューし、比較することを目的としている。
論文参考訳（メタデータ） (2023-05-05T04:11:00Z)
What do Vision Transformers Learn? A Visual Exploration [68.50771218442776]
視覚変換器(ViT)はコンピュータビジョンのデファクトアーキテクチャとして急速に普及しつつある。本稿では、ViT上での可視化の障害に対処し、ViTとCNNの根本的な相違について検討する。また、DeiT、CoaT、ConViT、PiT、Swin、Twinなど、さまざまなViT変種に対して大規模な可視化を行っています。
論文参考訳（メタデータ） (2022-12-13T16:55:12Z)
Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文参考訳（メタデータ） (2022-12-05T16:24:29Z)
Efficient Hybrid Transformer: Learning Global-local Context for Urban Sence Segmentation [11.237929167356725]
都市景観画像のセマンティックセグメンテーションのための効率的なハイブリッドトランスフォーマ(EHT)を提案する。 EHTはCNNとTransformerを利用して、グローバルなローカルコンテキストを学び、特徴表現を強化する。提案されたEHTはUAVidテストセットで67.0% mIoUを達成し、他の軽量モデルよりも大幅に優れている。
論文参考訳（メタデータ） (2021-09-18T13:55:38Z)
Do Vision Transformers See Like Convolutional Neural Networks? [45.69780772718875]
近年の研究では、画像分類タスクにおいて、(Vision) Transformer Model (ViT) が同等またはそれ以上の性能を達成できることが示されている。畳み込みネットワークのように振る舞うのか、それとも全く異なる視覚表現を学ぶのか? 例えば、ViTはすべての層にわたってより均一な表現を持つ。
論文参考訳（メタデータ） (2021-08-19T17:27:03Z)
BEV-Seg: Bird's Eye View Semantic Segmentation Using Geometry and Semantic Point Cloud [21.29622194272066]
我々は,BEVにおける画素単位のセマンティックセマンティックセマンティックセマンティクスを予測するタスクである,鳥の目の意味セマンティクスセマンティクスに着目した。このタスクには、サイドビューからバードビューへのビュー変換と、未確認領域への学習の移行という2つの大きな課題がある。新たな2段階認識パイプラインは,画素深度を明示的に予測し,効率よく画素セマンティクスと組み合わせる。
論文参考訳（メタデータ） (2020-06-19T23:30:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。