論文の概要: ViTMatte: Boosting Image Matting with Pretrained Plain Vision
Transformers
- arxiv url: http://arxiv.org/abs/2305.15272v1
- Date: Wed, 24 May 2023 15:59:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 14:43:51.211377
- Title: ViTMatte: Boosting Image Matting with Pretrained Plain Vision
Transformers
- Title(参考訳): vitmatte:プレトレーニングプレーンビジョントランスフォーマーによるイメージマットリングの強化
- Authors: Jingfeng Yao, Xinggang Wang, Shusheng Yang, Baoyuan Wang
- Abstract要約: そこで我々は,ViTMatteという,高効率でロバストなVTベースのマットシステムを提案する。
提案手法は, (i) コンボリューションネックと組み合わされたハイブリッドアテンション機構を用いて, 組合わせ作業における優れた性能計算トレードオフを実現する。
コンポジション1k と Distinctions-646 の ViTMatte を画像マッチングの最もよく使われるベンチマークとして評価し,提案手法は最先端の性能を達成し,従来よりも大きなマージンを達成している。
- 参考スコア(独自算出の注目度): 30.806562284544682
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, plain vision Transformers (ViTs) have shown impressive performance
on various computer vision tasks, thanks to their strong modeling capacity and
large-scale pretraining. However, they have not yet conquered the problem of
image matting. We hypothesize that image matting could also be boosted by ViTs
and present a new efficient and robust ViT-based matting system, named
ViTMatte. Our method utilizes (i) a hybrid attention mechanism combined with a
convolution neck to help ViTs achieve an excellent performance-computation
trade-off in matting tasks. (ii) Additionally, we introduce the detail capture
module, which just consists of simple lightweight convolutions to complement
the detailed information required by matting. To the best of our knowledge,
ViTMatte is the first work to unleash the potential of ViT on image matting
with concise adaptation. It inherits many superior properties from ViT to
matting, including various pretraining strategies, concise architecture design,
and flexible inference strategies. We evaluate ViTMatte on Composition-1k and
Distinctions-646, the most commonly used benchmark for image matting, our
method achieves state-of-the-art performance and outperforms prior matting
works by a large margin.
- Abstract(参考訳): 近年、様々なコンピュータビジョンタスクにおいて、モデリング能力の強化と大規模な事前トレーニングにより、プレーンビジョントランスフォーマー(ViT)の性能が向上している。
しかし、彼らはまだイメージマットングの問題を克服していない。
画像のマッチングはViTsによって促進される可能性があり、ViTMatteと呼ばれる新しい効率的で堅牢なViTベースのマッチングシステムを提案する。
我々の方法は
i) コンボリューションネックと組み合わされたハイブリッドアテンション機構により, マットリング作業における優れた性能計算トレードオフを実現する。
(ii)さらに,マッティングに必要な詳細情報を補完するための単純な軽量畳み込みのみからなる詳細キャプチャモジュールを紹介する。
我々の知る限りでは、ViTMatteは、簡潔な適応で画像マッチングにViTの可能性を解き放つ最初の試みである。
様々な事前訓練戦略、簡潔なアーキテクチャ設計、柔軟な推論戦略など、ViTからマッティングまで多くの優れた特性を継承している。
コンポジション1k と Distinctions-646 の ViTMatte を画像マッチングの最もよく使われるベンチマークとして評価し,提案手法は最先端の性能を達成し,従来よりも大きなマージンを達成している。
関連論文リスト
- Masked Image Residual Learning for Scaling Deeper Vision Transformers [37.313915004909184]
我々は,より深いViTの学習を容易にするために,Masked Image Residual Learning (MIRL)と呼ばれる自己教師型学習フレームワークを導入する。
MIRLは劣化問題を著しく軽減し、ViTを深さに沿ってスケーリングすることがパフォーマンス向上の有望な方向となる。
事前トレーニング時間が少ないため、MIRLは他のアプローチと比較して競争性能が向上する。
論文 参考訳(メタデータ) (2023-09-25T13:45:28Z) - MULLER: Multilayer Laplacian Resizer for Vision [16.67232499096539]
MULLERレサイザと呼ばれる,少数のトレーニング可能なパラメータしか持たない,非常に軽量な多層ラプラシアンリサイザを提案する。
MULLERは、様々な訓練パイプラインに簡単に接続できることを示し、基礎となる視覚タスクの性能を、ほとんど、あるいは、余分なコストで効果的に向上させる。
論文 参考訳(メタデータ) (2023-04-06T04:39:21Z) - OVRL-V2: A simple state-of-art baseline for ImageNav and ObjectNav [62.32806118504701]
我々は、ImageNavタスクとObjectNavタスクの両方で、最先端の結果を達成する単一のニューラルネットワークアーキテクチャを提案する。
このような汎用的な手法は、設計の単純さ、利用可能な計算での正のスケーリング、複数のタスクへの多用途適用の利点を提供する。
論文 参考訳(メタデータ) (2023-03-14T11:15:37Z) - When Adversarial Training Meets Vision Transformers: Recipes from
Training to Architecture [32.260596998171835]
ViTがこのような敵の攻撃に対して防衛するためには、依然として敵の訓練が必要である。
対人訓練にはプレトレーニングとSGDが必要であることが判明した。
私たちのコードはhttps://versa.com/mo666666/When-Adrial-Training-Meets-Vision-Transformersで利用可能です。
論文 参考訳(メタデータ) (2022-10-14T05:37:20Z) - Where are my Neighbors? Exploiting Patches Relations in Self-Supervised
Vision Transformer [3.158346511479111]
視覚変換器(ViT)を訓練するための簡易かつ効果的な自己教師付き学習(SSL)戦略を提案する。
我々は、ダウンストリームトレーニングの前後で、モデルが解決しなければならないイメージパッチの関係に基づいてSSLタスクのセットを定義する。
我々のRelViTモデルは、画像パッチに関連するトランスフォーマーエンコーダの出力トークンをすべて最適化し、トレーニングステップ毎により多くのトレーニング信号を利用する。
論文 参考訳(メタデータ) (2022-06-01T13:25:32Z) - DeiT III: Revenge of the ViT [56.46810490275699]
Vision Transformer (ViT) は、複数のコンピュータビジョンタスクを処理可能なシンプルなニューラルネットワークアーキテクチャである。
最近の研究によると、ViTsはBeiTのようなBerTライクな事前訓練の恩恵を受けている。
論文 参考訳(メタデータ) (2022-04-14T17:13:44Z) - Auto-scaling Vision Transformers without Training [84.34662535276898]
本研究では,視覚変換器(ViT)の自動スケーリングフレームワークAs-ViTを提案する。
As-ViTは、ViTを効率的かつ原則的に自動的に発見し、スケールアップする。
As-ViTは統合されたフレームワークとして、分類と検出において高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-02-24T06:30:55Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z) - Emerging Properties in Self-Supervised Vision Transformers [57.36837447500544]
コンボリューションネットワーク (convnets) と比較して際立つ, 自己監督型 ViT が Vision Transformer (ViT) に新たな特性を提供することを示した。
本研究は,ラベルのない自己蒸留の形態として解釈する,DINOと呼ばれる単純な自己監督方式で実施する。
ViT-Baseを用いた線形評価において、ImageNet上で80.1%のトップ-1を達成し、DINOとViTの相乗効果を示す。
論文 参考訳(メタデータ) (2021-04-29T12:28:51Z) - DeepViT: Towards Deeper Vision Transformer [92.04063170357426]
近年,視覚変換器 (ViT) が画像分類タスクに応用されている。
より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深いスケールで飽和する。
本研究では,アテンションマップの多様性を高めるために,アテンションマップを再生成する手法であるre-attentionを提案する。
論文 参考訳(メタデータ) (2021-03-22T14:32:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。