論文の概要: Improving Image Autoencoder Embeddings with Perceptual Loss
- arxiv url: http://arxiv.org/abs/2001.03444v2
- Date: Fri, 3 Apr 2020 09:39:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-12 23:15:08.783136
- Title: Improving Image Autoencoder Embeddings with Perceptual Loss
- Title(参考訳): 知覚損失を伴う画像オートエンコーダ埋め込みの改善
- Authors: Gustav Grund Pihlgren (1), Fredrik Sandin (1), Marcus Liwicki (1) ((1)
Lule\r{a} University of Technology)
- Abstract要約: 本研究はエンコーダの埋め込みの観点から知覚的損失を考察する。
オートエンコーダは、知覚的損失を使用して、3つの異なるコンピュータビジョンデータセットからイメージを埋め込むように訓練されている。
その結果、小型の特徴の物体位置決め作業において、知覚的損失は第10因子による結果を改善することができることがわかった。
- 参考スコア(独自算出の注目度): 0.1529342790344802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoencoders are commonly trained using element-wise loss. However,
element-wise loss disregards high-level structures in the image which can lead
to embeddings that disregard them as well. A recent improvement to autoencoders
that helps alleviate this problem is the use of perceptual loss. This work
investigates perceptual loss from the perspective of encoder embeddings
themselves. Autoencoders are trained to embed images from three different
computer vision datasets using perceptual loss based on a pretrained model as
well as pixel-wise loss. A host of different predictors are trained to perform
object positioning and classification on the datasets given the embedded images
as input. The two kinds of losses are evaluated by comparing how the predictors
performed with embeddings from the differently trained autoencoders. The
results show that, in the image domain, the embeddings generated by
autoencoders trained with perceptual loss enable more accurate predictions than
those trained with element-wise loss. Furthermore, the results show that, on
the task of object positioning of a small-scale feature, perceptual loss can
improve the results by a factor 10. The experimental setup is available online:
https://github.com/guspih/Perceptual-Autoencoders
- Abstract(参考訳): オートエンコーダは一般に要素損失を用いて訓練される。
しかし、要素の損失は画像の高レベル構造を無視し、それらを無視した埋め込みにつながる可能性がある。
この問題を緩和するオートエンコーダの最近の改善は、知覚的損失の使用である。
本研究はエンコーダの埋め込みの観点から知覚的損失を考察する。
オートエンコーダは、3つの異なるコンピュータビジョンデータセットから画像を埋め込むように訓練され、事前訓練されたモデルに基づく知覚的損失とピクセル単位の損失を使用する。
さまざまな予測器のホストがトレーニングされ、埋め込みイメージを入力として与えられたデータセットのオブジェクトの位置決めと分類が行われる。
2種類の損失は、異なる訓練されたオートエンコーダの埋め込みによる予測器の実行方法を比較することによって評価される。
その結果、画像領域において知覚損失で訓練されたオートエンコーダによって生成された埋め込みは、要素損失で訓練されたものよりも正確な予測が可能となる。
さらに,小型特徴の物体位置決め作業においては,知覚的損失が第10因子によって改善できることが示唆された。
実験的なセットアップはオンラインで公開されている。 https://github.com/guspih/Perceptual-Autoencoders
関連論文リスト
- Exploring Compressed Image Representation as a Perceptual Proxy: A Study [1.0878040851638]
本稿では,解析変換をオブジェクト分類タスクと共同で訓練する,エンドツーエンドの学習画像圧縮を提案する。
本研究は、圧縮された潜在表現が、カスタマイズされたDNNベースの品質指標に匹敵する精度で人間の知覚距離判定を予測できることを確認した。
論文 参考訳(メタデータ) (2024-01-14T04:37:17Z) - Human-imperceptible, Machine-recognizable Images [76.01951148048603]
より良い開発AIシステムと、センシティブなトレーニングデータから距離を置くことの間の、ソフトウェアエンジニアに関する大きな対立が露呈している。
画像が暗号化され、人間に認識され、機械に認識される」という、効率的なプライバシー保護学習パラダイムを提案する。
提案手法は,機械が認識可能な情報を保存しながら,暗号化された画像が人間に認識されなくなることを保証できることを示す。
論文 参考訳(メタデータ) (2023-06-06T13:41:37Z) - Unlocking Masked Autoencoders as Loss Function for Image and Video
Restoration [19.561055022474786]
我々は、損失の可能性を研究し、学習した損失関数は、画像とビデオの復元のためのニューラルネットワークの学習能力を高める」。
1)タスク適応型MAEからネイティブMAEへ、2)イメージタスクからビデオタスクへ、3)トランスフォーマー構造から畳み込みニューラルネットワーク構造へ。
論文 参考訳(メタデータ) (2023-03-29T02:41:08Z) - Fundamental Limits of Two-layer Autoencoders, and Achieving Them with
Gradient Methods [91.54785981649228]
本稿では,非線形二層型オートエンコーダについて述べる。
本結果は,人口リスクの最小化要因を特徴付け,その最小化要因が勾配法によって達成されることを示す。
符号アクティベーション関数の特別な場合において、この解析は、シャローオートエンコーダによるガウス音源の損失圧縮の基本的な限界を確立する。
論文 参考訳(メタデータ) (2022-12-27T12:37:34Z) - Reducing Redundancy in the Bottleneck Representation of the Autoencoders [98.78384185493624]
オートエンコーダは教師なしニューラルネットワークの一種であり、様々なタスクを解くのに使用できる。
本稿では,ボトルネック表現における特徴冗長性を明示的に罰する手法を提案する。
我々は,3つの異なるデータセットを用いた次元削減,MNISTデータセットを用いた画像圧縮,ファッションMNISTを用いた画像デノナイズという,さまざまなタスクにまたがってアプローチを検証した。
論文 参考訳(メタデータ) (2022-02-09T18:48:02Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z) - EncoderMI: Membership Inference against Pre-trained Encoders in
Contrastive Learning [27.54202989524394]
コントラスト学習によって事前訓練された画像エンコーダに対する最初のメンバーシップ推論手法であるMIを提案する。
複数のデータセットで事前学習した画像エンコーダと、OpenAIが収集した4億(画像、テキスト)のペアで事前学習したContrastive Language- Image Pre-training (CLIP)画像エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-08-25T03:00:45Z) - A Variational Auto-Encoder Approach for Image Transmission in Wireless
Channel [4.82810058837951]
本稿では,変分オートエンコーダの性能について検討し,その結果を標準オートエンコーダと比較する。
実験により,SSIMは受信機における再構成画像の品質を視覚的に向上することを示した。
論文 参考訳(メタデータ) (2020-10-08T13:35:38Z) - Content Adaptive and Error Propagation Aware Deep Video Compression [110.31693187153084]
本稿では,コンテンツ適応型・誤り伝搬対応型ビデオ圧縮システムを提案する。
本手法では, 複数フレームの圧縮性能を1フレームではなく複数フレームで考慮し, 共同学習手法を用いる。
従来の圧縮システムでは手作りのコーディングモードを使用する代わりに,オンラインエンコーダ更新方式をシステム内に設計する。
論文 参考訳(メタデータ) (2020-03-25T09:04:24Z) - Pretraining Image Encoders without Reconstruction via Feature Prediction
Loss [0.1529342790344802]
本研究では,画像エンコーダのオートエンコーダによる事前学習における損失を計算する3つの手法について検討する。
損失ネットワークの特徴を復号化することを提案する。
論文 参考訳(メタデータ) (2020-03-16T21:08:43Z) - Self-Supervised Linear Motion Deblurring [112.75317069916579]
深層畳み込みニューラルネットワークは、画像の劣化の最先端技術である。
本稿では,自己監督型動作遅延に対する識別可能なreblurモデルを提案する。
我々の実験は、自己監督された単一画像の劣化が本当に実現可能であることを実証した。
論文 参考訳(メタデータ) (2020-02-10T20:15:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。