論文の概要: Unlocking Masked Autoencoders as Loss Function for Image and Video
Restoration
- arxiv url: http://arxiv.org/abs/2303.16411v1
- Date: Wed, 29 Mar 2023 02:41:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-30 16:13:21.563080
- Title: Unlocking Masked Autoencoders as Loss Function for Image and Video
Restoration
- Title(参考訳): マスク付きオートエンコーダのアンロックと画像再生機能
- Authors: Man Zhou, Naishan Zheng, Jie Huang, Chunle Guo, Chongyi Li
- Abstract要約: 我々は、損失の可能性を研究し、学習した損失関数は、画像とビデオの復元のためのニューラルネットワークの学習能力を高める」。
1)タスク適応型MAEからネイティブMAEへ、2)イメージタスクからビデオタスクへ、3)トランスフォーマー構造から畳み込みニューラルネットワーク構造へ。
- 参考スコア(独自算出の注目度): 19.561055022474786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image and video restoration has achieved a remarkable leap with the advent of
deep learning. The success of deep learning paradigm lies in three key
components: data, model, and loss. Currently, many efforts have been devoted to
the first two while seldom study focuses on loss function. With the question
``are the de facto optimization functions e.g., $L_1$, $L_2$, and perceptual
losses optimal?'', we explore the potential of loss and raise our belief
``learned loss function empowers the learning capability of neural networks for
image and video restoration''.
Concretely, we stand on the shoulders of the masked Autoencoders (MAE) and
formulate it as a `learned loss function', owing to the fact the pre-trained
MAE innately inherits the prior of image reasoning. We investigate the efficacy
of our belief from three perspectives: 1) from task-customized MAE to native
MAE, 2) from image task to video task, and 3) from transformer structure to
convolution neural network structure. Extensive experiments across multiple
image and video tasks, including image denoising, image super-resolution, image
enhancement, guided image super-resolution, video denoising, and video
enhancement, demonstrate the consistent performance improvements introduced by
the learned loss function. Besides, the learned loss function is preferable as
it can be directly plugged into existing networks during training without
involving computations in the inference stage. Code will be publicly available.
- Abstract(参考訳): 画像とビデオの復元は、ディープラーニングの出現によって目覚ましい飛躍を遂げた。
ディープラーニングのパラダイムの成功には、データ、モデル、損失という3つの重要な要素がある。
現在、最初の2つに多くの努力が注がれており、損失関数の研究はめったに行われていない。
事実上の最適化関数、例えば$l_1$, $l_2$, and 知覚的損失は最適か'という質問で、損失の可能性を探求し、「学習損失関数は画像と映像の復元のためのニューラルネットワークの学習能力を強化する」という信念を提起する。
具体的には、仮に訓練された前が画像推論の先を自然に継承していることから、マスクされたオートエンコーダ(mae)の肩の上に立ち、それを「学習損失関数」として定式化する。
信念の有効性を3つの視点から検討する。
1)タスクカスタマイズMAEからネイティブMAEへ。
2)映像タスクから映像タスクへ、そして
3)トランス構造から畳み込みニューラルネットワーク構造へ。
画像デノイング、画像スーパーレゾリューション、画像エンハンスメント、ガイド画像スーパーレゾリューション、ビデオデノイング、ビデオエンハンスメントなど、複数の画像およびビデオタスクにわたる広範な実験は、学習損失関数によって導入された一貫したパフォーマンス改善を実証している。
さらに、学習した損失関数は、推論段階の計算を伴わずに、トレーニング中に既存のネットワークに直接接続できることが好ましい。
コードは公開されます。
関連論文リスト
- Class Anchor Margin Loss for Content-Based Image Retrieval [97.81742911657497]
距離学習パラダイムに該当する新しいレペラ・トラクタ損失を提案するが、ペアを生成する必要がなく、直接L2メトリックに最適化する。
CBIRタスクにおいて,畳み込みアーキテクチャと変圧器アーキテクチャの両方を用いて,少数ショットおよびフルセットトレーニングの文脈で提案した目的を評価する。
論文 参考訳(メタデータ) (2023-06-01T12:53:10Z) - TVTSv2: Learning Out-of-the-box Spatiotemporal Visual Representations at
Scale [59.01246141215051]
言語指導の観点から,その劣化要因を分析した。
本稿では,テキストエンコーダの一般化能力を維持するために,教師なし事前学習戦略を提案する。
最大10億のパラメータを持つTVTSv2と呼ばれる一連のモデルを作成します。
論文 参考訳(メタデータ) (2023-05-23T15:44:56Z) - WSSL: Weighted Self-supervised Learning Framework For Image-inpainting [18.297463645457693]
画像インペイント(英: Image inpainting)は、画像の失われた部分を再生する過程である。
改良されたアルゴリズムベースの手法は優れた結果を示したが、2つの大きな欠点がある。
本稿では,イメージインペイントのための新たな自己教師型学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-25T01:50:33Z) - Is Deep Image Prior in Need of a Good Education? [57.3399060347311]
画像再構成に有効な先行画像として, 奥行き画像が導入された。
その印象的な再建性にもかかわらず、学習技術や伝統的な再建技術と比べてアプローチは遅い。
計算課題に対処する2段階の学習パラダイムを開発する。
論文 参考訳(メタデータ) (2021-11-23T15:08:26Z) - Training a Better Loss Function for Image Restoration [17.20936270604533]
単一画像のスーパーレゾリューションで最先端の損失関数を上回る軽量な特徴抽出器を訓練するには,単一の自然画像だけで十分であることを示す。
発電機が導入した誤差を罰するように訓練された一連の識別器からなる新しいマルチスケール識別特徴(MDF)損失を提案する。
論文 参考訳(メタデータ) (2021-03-26T17:29:57Z) - Image Restoration by Deep Projected GSURE [115.57142046076164]
Ill-posed inverse problem は、デブロアリングや超解像など、多くの画像処理アプリケーションに現れる。
本稿では,一般化されたSteinUnbiased Risk Estimator(GSURE)の「投影変換」とCNNによる潜在画像のパラメータ化を含む損失関数の最小化に基づく,新たな画像復元フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-04T08:52:46Z) - Neural Sparse Representation for Image Restoration [116.72107034624344]
スパース符号化に基づく画像復元モデルの堅牢性と効率に触発され,深部ネットワークにおけるニューロンの空間性について検討した。
本手法は,隠れたニューロンに対する空間的制約を構造的に強制する。
実験により、複数の画像復元タスクのためのディープニューラルネットワークではスパース表現が不可欠であることが示されている。
論文 参考訳(メタデータ) (2020-06-08T05:15:17Z) - Learning the Loss Functions in a Discriminative Space for Video
Restoration [48.104095018697556]
本稿では,映像復元作業に特有の識別空間を学習し,効果的な損失関数を構築するための新しい枠組みを提案する。
私たちのフレームワークは、ジェネレータと損失ネットワークという2つのネットワークを反復的にトレーニングするという点で、GANと似ています。
ビデオスーパーレゾリューションとデブロワーリングの実験により,我々の手法がより視覚的に楽しいビデオを生成することが示された。
論文 参考訳(メタデータ) (2020-03-20T06:58:27Z) - Pretraining Image Encoders without Reconstruction via Feature Prediction
Loss [0.1529342790344802]
本研究では,画像エンコーダのオートエンコーダによる事前学習における損失を計算する3つの手法について検討する。
損失ネットワークの特徴を復号化することを提案する。
論文 参考訳(メタデータ) (2020-03-16T21:08:43Z) - Improving Image Autoencoder Embeddings with Perceptual Loss [0.1529342790344802]
本研究はエンコーダの埋め込みの観点から知覚的損失を考察する。
オートエンコーダは、知覚的損失を使用して、3つの異なるコンピュータビジョンデータセットからイメージを埋め込むように訓練されている。
その結果、小型の特徴の物体位置決め作業において、知覚的損失は第10因子による結果を改善することができることがわかった。
論文 参考訳(メタデータ) (2020-01-10T13:48:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。