論文の概要: SiamTrans: Zero-Shot Multi-Frame Image Restoration with Pre-Trained
Siamese Transformers
- arxiv url: http://arxiv.org/abs/2112.09426v1
- Date: Fri, 17 Dec 2021 10:42:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-20 16:02:58.872792
- Title: SiamTrans: Zero-Shot Multi-Frame Image Restoration with Pre-Trained
Siamese Transformers
- Title(参考訳): siamtrans:事前訓練されたsiameseトランスフォーマーによるゼロショットマルチフレーム画像復元
- Authors: Lin Liu, Shanxin Yuan, Jianzhuang Liu, Xin Guo, Youliang Yan, Qi Tian
- Abstract要約: 不要な閉塞要素を除去する新しいゼロショット多フレーム画像復元法を提案する。
トランスフォーマーの事前訓練、ゼロショットの復元、ハードパッチの改良の3段階がある。
ゼロショット画像復元のために、シームズ変換器、エンコーダ、デコーダによって構築されたSiamTransと呼ばれる新しいモデルを設計する。
- 参考スコア(独自算出の注目度): 95.57829796484472
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose a novel zero-shot multi-frame image restoration method for
removing unwanted obstruction elements (such as rains, snow, and moire
patterns) that vary in successive frames. It has three stages: transformer
pre-training, zero-shot restoration, and hard patch refinement. Using the
pre-trained transformers, our model is able to tell the motion difference
between the true image information and the obstructing elements. For zero-shot
image restoration, we design a novel model, termed SiamTrans, which is
constructed by Siamese transformers, encoders, and decoders. Each transformer
has a temporal attention layer and several self-attention layers, to capture
both temporal and spatial information of multiple frames. Only pre-trained
(self-supervised) on the denoising task, SiamTrans is tested on three different
low-level vision tasks (deraining, demoireing, and desnowing). Compared with
related methods, ours achieves the best performances, even outperforming those
with supervised learning.
- Abstract(参考訳): 本研究では, 連続するフレームに異なる不要な閉塞要素(雨, 雪, モアレパターンなど)を除去するゼロショット多フレーム画像復元手法を提案する。
トランスフォーマープリトレーニング、ゼロショット修復、ハードパッチの改良の3段階がある。
事前学習されたトランスフォーマを使用して,本モデルでは,実画像情報と閉塞要素の動作差を推定できる。
ゼロショット画像復元のために、シャムトランスと呼ばれる新しいモデルを設計し、シャムトランス、エンコーダ、デコーダによって構築する。
各トランスは時間的注意層と複数の自己注意層を有し、複数のフレームの時間的情報と空間的情報の両方をキャプチャする。
siamtransは、事前訓練された(自己監督)タスクのみで、3つの異なる低レベルのビジョンタスク(デレーディング、デモレーディング、デソーシング)でテストされる。
関連手法と比較すると,教師付き学習よりも優れた成績を得られる。
関連論文リスト
- Boosting vision transformers for image retrieval [11.441395750267052]
視覚変換器は画像分類や検出などの視覚タスクにおいて顕著な進歩を遂げている。
しかし、インスタンスレベルの画像検索では、変換器は畳み込みネットワークと比較してまだ良い性能を示していない。
本稿では,トランスフォーマーがアートの状態を初めて上回るような改良をいくつか提案する。
論文 参考訳(メタデータ) (2022-10-21T12:17:12Z) - Three things everyone should know about Vision Transformers [67.30250766591405]
トランスフォーマーアーキテクチャは コンピュータビジョンにおいて 急速に勢いを増しています
視覚変換器の変種をシンプルかつ容易に実装できる3つの洞察を提供する。
我々は、ImageNet-1kデータセットを用いて、これらの設計選択の影響を評価し、ImageNet-v2テストセットにおける結果を確認した。
論文 参考訳(メタデータ) (2022-03-18T08:23:03Z) - RePre: Improving Self-Supervised Vision Transformer with Reconstructive
Pre-training [80.44284270879028]
本稿では,Reconstructive Pre-Training (RePre) を用いて,局所特徴学習を自己教師型視覚変換器に組み込む。
我々のRePreは、既存のコントラストの目的と平行して生画像のピクセルを再構成するブランチを追加することで、コントラストのフレームワークを拡張します。
論文 参考訳(メタデータ) (2022-01-18T10:24:58Z) - U2-Former: A Nested U-shaped Transformer for Image Restoration [30.187257111046556]
U2-Formerと呼ばれる画像復元のための深く効果的なトランスフォーマーネットワークを提案する。
コア操作としてTransformerを使用して、ディープエンコーディングとデコード空間でイメージ復元を行うことができる。
論文 参考訳(メタデータ) (2021-12-04T08:37:04Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z) - Improve Vision Transformers Training by Suppressing Over-smoothing [28.171262066145612]
トランス構造をコンピュータビジョンのタスクに導入することで、従来の畳み込みネットワークよりも優れたスピード精度のトレードオフが得られます。
しかし、視覚タスクでバニラ変圧器を直接訓練すると、不安定で準最適結果が得られることが示されている。
近年の研究では,視覚タスクの性能向上のために,畳み込み層を導入してトランスフォーマー構造を改良することを提案する。
論文 参考訳(メタデータ) (2021-04-26T17:43:04Z) - Restoration of Video Frames from a Single Blurred Image with Motion
Understanding [69.90724075337194]
単一モーション赤画像からクリーンな映像フレームを生成するための新しいフレームワークを提案する。
一つのぼやけた画像からの映像復元を逆問題として、クリーンな画像シーケンスとそれぞれの動きを潜伏要因として設定する。
提案手法は,空間トランスフォーマネットワークモジュールを用いたanblur-decoder構造に基づいている。
論文 参考訳(メタデータ) (2021-04-19T08:32:57Z) - Powers of layers for image-to-image translation [60.5529622990682]
本稿では,未ペア画像から画像への変換タスクに対処するシンプルなアーキテクチャを提案する。
固定重み付きイメージオートエンコーダアーキテクチャから始める。
各タスクに対して、潜在空間で動作している残留ブロックを学習し、ターゲット領域に到達するまで繰り返し呼び出される。
論文 参考訳(メタデータ) (2020-08-13T09:02:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。