論文の概要: Lookahead optimizer improves the performance of Convolutional
Autoencoders for reconstruction of natural images
- arxiv url: http://arxiv.org/abs/2012.05694v1
- Date: Thu, 3 Dec 2020 03:18:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-24 03:12:12.982286
- Title: Lookahead optimizer improves the performance of Convolutional
Autoencoders for reconstruction of natural images
- Title(参考訳): Lookahead Optimizationrは自然画像再構成のための畳み込みオートエンコーダの性能を改善する
- Authors: Sayan Nag
- Abstract要約: オートエンコーダ(Autoencoder)は、近年注目を集めている人工知能のクラスである。
Lookahead(とAdam)は、自然画像の再構成のためのCAEの性能を改善している。
本研究では,自然画像の再構成におけるCAEの性能向上を(アダムと共に)示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoencoders are a class of artificial neural networks which have gained a
lot of attention in the recent past. Using the encoder block of an autoencoder
the input image can be compressed into a meaningful representation. Then a
decoder is employed to reconstruct the compressed representation back to a
version which looks like the input image. It has plenty of applications in the
field of data compression and denoising. Another version of Autoencoders (AE)
exist, called Variational AE (VAE) which acts as a generative model like GAN.
Recently, an optimizer was introduced which is known as lookahead optimizer
which significantly enhances the performances of Adam as well as SGD. In this
paper, we implement Convolutional Autoencoders (CAE) and Convolutional
Variational Autoencoders (CVAE) with lookahead optimizer (with Adam) and
compare them with the Adam (only) optimizer counterparts. For this purpose, we
have used a movie dataset comprising of natural images for the former case and
CIFAR100 for the latter case. We show that lookahead optimizer (with Adam)
improves the performance of CAEs for reconstruction of natural images.
- Abstract(参考訳): オートエンコーダ(autoencoder)は、近年多くの注目を集めているニューラルネットワークのクラスである。
オートエンコーダのエンコーダブロックを使用すると、入力画像は意味のある表現に圧縮される。
次にデコーダを用いて圧縮された表現を、入力画像のように見えるバージョンに再構成する。
データ圧縮やデノイジングの分野では、多くのアプリケーションがあります。
オートエンコーダ(AE)の別のバージョンは、変分AE(VAE)と呼ばれ、GANのような生成モデルとして機能する。
近年、AdamとSGDの性能を大幅に向上させるルックアヘッドオプティマイザと呼ばれるオプティマイザが導入されている。
本稿では,CAE(Convolutional Autoencoders)とCVAE(Convolutional Variational Autoencoders)をルックアヘッドオプティマイザ(Adam)に実装し,Adamオプティマイザ(Adamのみ)と比較する。
この目的のために、我々は、前者の自然画像と後者のCIFAR100からなる映画データセットを使用した。
我々は,自然画像の再構成のためのCAEの性能向上を図るために,ルックアヘッドオプティマイザ(Adam)を併用した。
関連論文リスト
- $ε$-VAE: Denoising as Visual Decoding [61.29255979767292]
生成モデリングにおいて、トークン化は複雑なデータをコンパクトで構造化された表現に単純化し、より効率的で学習可能な空間を作り出す。
現在の視覚的トークン化手法は従来のオートエンコーダフレームワークに依存しており、エンコーダはデータを潜在表現に圧縮し、デコーダは元の入力を再構築する。
具体的には,デコーダを拡散処理に置き換え,ノイズを反復的に除去して元のイメージを復元し,エンコーダが提供する潜伏者によって誘導される。
再建(rFID)と生成品質(ジェネレーション品質)の両面からアプローチを評価する。
論文 参考訳(メタデータ) (2024-10-05T08:27:53Z) - ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models [77.59651787115546]
高解像度のLMM(Large Multimodal Models)は、過度な視覚トークンと二次的な視覚的複雑さの課題に直面する。
本稿では,LMMのビジュアルエンコーダとして,階層的なバックボーンであるConvNeXtを用いるConvLLaVAを提案する。
ConvLLaVAは高解像度画像を情報豊富な視覚特徴に圧縮し、過剰な視覚トークンの発生を効果的に防止する。
論文 参考訳(メタデータ) (2024-05-24T17:34:15Z) - Regress Before Construct: Regress Autoencoder for Point Cloud
Self-supervised Learning [18.10704604275133]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
我々は、ポイントクラウド自己教師型学習のための回帰オートエンコーダの新しいスキーム、Point Regress AutoEncoder (Point-RAE)を提案する。
本手法は, 各種下流タスクの事前学習において効率よく, 一般化可能である。
論文 参考訳(メタデータ) (2023-09-25T17:23:33Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - EVC: Towards Real-Time Neural Image Compression with Mask Decay [29.76392801329279]
ニューラル画像圧縮は、RD性能のために最先端の伝統的なコーデック(H.266/VVC)を上回っている。
入力画像が768x512の30FPSで動作可能で,RD性能のVVCよりも優れた高効率単一モデル可変ビットレートコーデック(EVC)を提案する。
論文 参考訳(メタデータ) (2023-02-10T06:02:29Z) - Denoising Masked AutoEncoders are Certifiable Robust Vision Learners [37.04863068273281]
DMAE(Denoising Masked AutoEncoders)と呼ばれる自己教師型手法を提案する。
DMAEは各ピクセル値にガウスノイズを加え、複数のパッチをランダムにマスキングすることで、各イメージを劣化させる。
その後、Transformerベースのエンコーダデコーダモデルをトレーニングして、オリジナルのイメージを破損したイメージから再構築する。
論文 参考訳(メタデータ) (2022-10-10T12:37:59Z) - ALAP-AE: As-Lite-as-Possible Auto-Encoder [6.244939945140818]
本稿では,条件付き画像生成オートエンコーダが必要とするテンソル計算を削減するアルゴリズムを提案する。
条件付き画像生成タスクの性能向上を示す。
画像品質を維持しつつ、CPUのみのデバイス上で様々なオートエンコーダのリアルタイムバージョンを実現する。
論文 参考訳(メタデータ) (2022-03-19T18:03:08Z) - Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。
実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文 参考訳(メタデータ) (2022-03-09T14:56:48Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z) - VCE: Variational Convertor-Encoder for One-Shot Generalization [3.86981854389977]
変分変換エンコーダ(VCE)は、画像を様々なスタイルに変換する。
本稿では,一括一般化問題に対する新しいアーキテクチャを提案する。
また, 変分オートエンコーダ(VAE)の性能を向上し, その曖昧な点をフィルタする。
論文 参考訳(メタデータ) (2020-11-12T07:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。