論文の概要: Stripformer: Strip Transformer for Fast Image Deblurring
- arxiv url: http://arxiv.org/abs/2204.04627v1
- Date: Sun, 10 Apr 2022 08:01:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-12 16:30:42.515810
- Title: Stripformer: Strip Transformer for Fast Image Deblurring
- Title(参考訳): Stripformer: 高速画像処理のためのストリップトランス
- Authors: Fu-Jen Tsai, Yan-Tsung Peng, Yen-Yu Lin, Chung-Chi Tsai, and Chia-Wen
Lin
- Abstract要約: Stripformerはトランスフォーマーベースのアーキテクチャで、ストリップ内およびストリップ間トークンを構築し、ぼやけたパターンをキャッチする。
斜め内層と斜め間層を積み重ねて、ぼやけた大きさを見せる。
実験結果から,Stripformerは動的シーン劣化における最先端モデルに対して良好に機能することが示された。
- 参考スコア(独自算出の注目度): 43.86235102507237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Images taken in dynamic scenes may contain unwanted motion blur, which
significantly degrades visual quality. Such blur causes short- and long-range
region-specific smoothing artifacts that are often directional and non-uniform,
which is difficult to be removed. Inspired by the current success of
transformers on computer vision and image processing tasks, we develop,
Stripformer, a transformer-based architecture that constructs intra- and
inter-strip tokens to reweight image features in the horizontal and vertical
directions to catch blurred patterns with different orientations. It stacks
interlaced intra-strip and inter-strip attention layers to reveal blur
magnitudes. In addition to detecting region-specific blurred patterns of
various orientations and magnitudes, Stripformer is also a token-efficient and
parameter-efficient transformer model, demanding much less memory usage and
computation cost than the vanilla transformer but works better without relying
on tremendous training data. Experimental results show that Stripformer
performs favorably against state-of-the-art models in dynamic scene deblurring.
- Abstract(参考訳): ダイナミックシーンで撮影された画像には、望ましくない動きのぼやけが含まれ、視覚品質が著しく低下する可能性がある。
このようなぼやけは、しばしば方向的かつ一様でない短距離の領域特異的な平滑化アーティファクトを引き起こす。
コンピュータビジョンと画像処理タスクにおけるトランスフォーマーの現在の成功に触発されて、水平方向と垂直方向のイメージ特徴を重み付けして、異なる方向のぼやけたパターンをキャッチするトランスフォーマーベースのアーキテクチャであるStripformerを開発した。
斜め内層と斜め間層を積み重ねて、ぼやけた大きさを見せる。
様々な方向や大きさの領域固有のぼやけたパターンの検出に加えて、Stripformerはトークン効率とパラメータ効率の変換モデルであり、バニラ変圧器よりもメモリ使用量や計算コストをはるかに少なくするが、膨大なトレーニングデータに頼ることなくよりうまく動作する。
実験結果から,Stripformerは動的シーン劣化における最先端モデルに対して良好に機能することが示された。
関連論文リスト
- SwinStyleformer is a favorable choice for image inversion [2.8115030277940947]
本稿では,SwinStyleformerと呼ばれるトランスフォーマー構造インバージョンネットワークを提案する。
実験の結果、トランスフォーマーのバックボーンによるインバージョンネットワークは、画像の反転に成功しなかった。
論文 参考訳(メタデータ) (2024-06-19T02:08:45Z) - Scalable Visual State Space Model with Fractal Scanning [16.077348474371547]
State Space Models (SSM) はTransformerモデルの効率的な代替品として登場した。
本稿では, フラクタル走査曲線を用いたパッチシリアライゼーションを提案する。
画像分類,検出,セグメンテーションタスクにおいて,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2024-05-23T12:12:11Z) - Neural Spline Fields for Burst Image Fusion and Layer Separation [40.9442467471977]
ニューラルスプライン場を用いた2層α合成画像とフローモデルを用いた多目的中間表現を提案する。
提案手法では, バースト画像を高分解能な再構成に融合し, 透過層と閉塞層に分解することができる。
後処理のステップや事前学習がないため、当社の一般化可能なモデルは、既存の専用イメージやマルチビューの障害物除去アプローチよりも優れています。
論文 参考訳(メタデータ) (2023-12-21T18:54:19Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - MAT: Mask-Aware Transformer for Large Hole Image Inpainting [79.67039090195527]
本稿では, 変圧器と畳み込みの利点を統一する, 大穴塗装の新しいモデルを提案する。
実験では、複数のベンチマークデータセット上で、新しいモデルの最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-29T06:36:17Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Diverse Image Inpainting with Bidirectional and Autoregressive
Transformers [55.21000775547243]
新規な双方向自己回帰トランス(BAT)を用いた画像インペインティングフレームワークBAT-Fillを提案する。
BAT-Fillは変換器とCNNの利点を2段階的に継承し、変換器の注意の二次的複雑さに制約されることなく高解像度のコンテンツを生成する。
論文 参考訳(メタデータ) (2021-04-26T03:52:27Z) - Multiscale Vision Transformers [79.76412415996892]
本稿では,マルチスケール特徴階層をトランスフォーマモデルに結びつけることで,映像・画像認識のためのマルチスケールビジョントランス (MViT) を提案する。
我々は,視覚信号の密集性を様々な映像認識タスクでモデル化するために,この基本アーキテクチャの事前評価を行う。
論文 参考訳(メタデータ) (2021-04-22T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。