論文の概要: MatteFormer: Transformer-Based Image Matting via Prior-Tokens
- arxiv url: http://arxiv.org/abs/2203.15662v1
- Date: Tue, 29 Mar 2022 15:25:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-30 15:40:15.278073
- Title: MatteFormer: Transformer-Based Image Matting via Prior-Tokens
- Title(参考訳): MatteFormer: 事前トークンによるトランスフォーマーベースのイメージマッチング
- Authors: GyuTae Park, SungJoon Son, JaeYoung Yoo, SeHo Kim, Nojun Kwak
- Abstract要約: 本稿では,MatteFormer というトランスフォーマーベースの画像マッチングモデルを提案する。
提案手法はまず,各トリマップ領域のグローバルな表現である事前トークンを導入する。
提案手法は,最先端の性能を高いマージンで達成する。
- 参考スコア(独自算出の注目度): 27.921716008148007
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a transformer-based image matting model called
MatteFormer, which takes full advantage of trimap information in the
transformer block. Our method first introduces a prior-token which is a global
representation of each trimap region (e.g. foreground, background and unknown).
These prior-tokens are used as global priors and participate in the
self-attention mechanism of each block. Each stage of the encoder is composed
of PAST (Prior-Attentive Swin Transformer) block, which is based on the Swin
Transformer block, but differs in a couple of aspects: 1) It has PA-WSA
(Prior-Attentive Window Self-Attention) layer, performing self-attention not
only with spatial-tokens but also with prior-tokens. 2) It has prior-memory
which saves prior-tokens accumulatively from the previous blocks and transfers
them to the next block. We evaluate our MatteFormer on the commonly used image
matting datasets: Composition-1k and Distinctions-646. Experiment results show
that our proposed method achieves state-of-the-art performance with a large
margin. Our codes are available at https://github.com/webtoon/matteformer.
- Abstract(参考訳): 本稿では,変換器ブロック内のトリマップ情報をフル活用した,変換器ベースの画像マッチングモデルMatteFormerを提案する。
提案手法はまず,各トリマップ領域(例えば,前景,背景,未知)のグローバルな表現である事前トークンを導入する。
これらの事前トケンはグローバルプリエントとして使われ、各ブロックの自己アテンション機構に参加する。
エンコーダの各ステージは、スウィントランスブロックに基づいているが、いくつかの点で異なる、過去のスウィントランスブロック(prior-attentive swin transformer)で構成されている。
1)PA-WSA(Prior-Attentive Window Self-Attention)層を有し,空間トークンだけでなく事前トークンも自己アテンションを行う。
2)前のブロックから事前トークンを蓄積して次のブロックに転送する事前メモリを持つ。
一般的なイメージマット化データセットである composition-1k と distinctions-646 について,matteformer を評価した。
実験の結果,提案手法は最先端の性能を高いマージンで達成できることがわかった。
私たちのコードはhttps://github.com/webtoon/matteformerで利用可能です。
関連論文リスト
- TCFormer: Visual Recognition via Token Clustering Transformer [79.24723479088097]
本稿では,意味に基づく動的視覚トークンを生成するToken Clustering Transformer (TCFormer)を提案する。
ダイナミックトークンには2つの重要な特徴がある:(1)同じ視覚トークンを用いて類似の意味を持つ画像領域を表現し、(2)それらの領域が隣接していない場合でも、(2)貴重な詳細を持つ領域に集中し、細かなトークンを用いてそれらを表現する。
論文 参考訳(メタデータ) (2024-07-16T02:26:18Z) - Transformer based Pluralistic Image Completion with Reduced Information Loss [72.92754600354199]
トランスフォーマーをベースとした手法は,近年,イメージインペイントにおいて大きな成功を収めている。
彼らは各ピクセルをトークンとみなし、情報損失の問題に悩まされる。
我々はPUTと呼ばれる新しいトランスフォーマーベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-31T01:20:16Z) - Object Recognition as Next Token Prediction [99.40793702627396]
オブジェクト認識を次のトークン予測として提案する。
その考え方は、画像埋め込みからフォームラベルへのテキストトークンの自動回帰予測を行う言語デコーダを適用することである。
論文 参考訳(メタデータ) (2023-12-04T18:58:40Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z) - Improved Image Classification with Token Fusion [9.413225906164838]
画像分類性能を向上させるために,CNNとトランスフォーマー構造を融合した手法を提案する。
ImageNet 1kを用いた実験では,最も優れた分類性能を示す。
論文 参考訳(メタデータ) (2022-08-19T07:02:50Z) - TransMatting: Enhancing Transparent Objects Matting with Transformers [4.012340049240327]
本研究では,トランスフォーマーをベースとしたトランスマターネットワークを提案し,大きな受容場を持つ透明なオブジェクトをモデル化する。
エンコーダからデコーダへのマルチスケール特徴伝搬を導くために,グローバル機能と非バックグラウンドマスクを利用するために,小さな畳み込みネットワークを提案する。
我々は、小さなフォアグラウンド領域を持つ透明物体の高分解能マッチングデータセットを作成する。
論文 参考訳(メタデータ) (2022-08-05T06:44:14Z) - Shunted Self-Attention via Multi-Scale Token Aggregation [124.16925784748601]
最近のビジョン変換器(ViT)モデルは、様々なコンピュータビジョンタスクにまたがる励振結果を実証している。
注意層ごとのハイブリッドスケールでの注意をViTsでモデル化するShunted Self-attention(SSA)を提案する。
SSAベースの変換器は84.0%のTop-1精度を実現し、ImageNetの最先端のFocal Transformerより優れている。
論文 参考訳(メタデータ) (2021-11-30T08:08:47Z) - Global Interaction Modelling in Vision Transformer via Super Tokens [20.700750237972155]
ウィンドウベースのローカルアテンションは、最近の研究で採用されている主要なテクニックの1つである。
本稿では、ローカルウィンドウとスーパートークンと呼ばれる特別なトークンを自己注意のために採用した新しい等方的アーキテクチャを提案する。
Imagenet-1Kの標準画像分類では、提案されたSuper tokens based transformer (STT-S25) は83.5%の精度を実現している。
論文 参考訳(メタデータ) (2021-11-25T16:22:57Z) - BEiT: BERT Pre-Training of Image Transformers [43.704968112586876]
本稿では,画像変換器の双方向表現を表す自己教師型視覚表現モデルBEiTを紹介する。
具体的には、各画像には事前トレーニング、すなわち画像パッチと視覚トークンの2つのビューがある。
まず最初にオリジナル画像を視覚トークンに"トークン"します。次にランダムに画像パッチをマスクして、バックボーントランスフォーマーに入力します。
事前学習の目的は、破損した画像パッチに基づいて元の視覚トークンを復元することである。
論文 参考訳(メタデータ) (2021-06-15T16:02:37Z) - DynamicViT: Efficient Vision Transformers with Dynamic Token
Sparsification [134.9393799043401]
入力に基づいて冗長なトークンを抽出する動的トークンスペーシフィケーションフレームワークを提案する。
入力トークンの66%を階層的にプルーニングすることで,FLOPの31%37%を大幅に削減し,スループットを40%以上向上する。
DynamicViTモデルは、ImageNetの最先端CNNやビジョントランスフォーマーと比較して、非常に競争力のある複雑性/精度のトレードオフを実現することができる。
論文 参考訳(メタデータ) (2021-06-03T17:57:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。