論文の概要: Pretraining Image Encoders without Reconstruction via Feature Prediction
Loss
- arxiv url: http://arxiv.org/abs/2003.07441v2
- Date: Wed, 15 Jul 2020 15:54:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 02:46:52.969401
- Title: Pretraining Image Encoders without Reconstruction via Feature Prediction
Loss
- Title(参考訳): 特徴予測損失による再構成のないプリトレーニング画像エンコーダ
- Authors: Gustav Grund Pihlgren (1), Fredrik Sandin (1), Marcus Liwicki (1) ((1)
Lule\r{a} University of Technology)
- Abstract要約: 本研究では,画像エンコーダのオートエンコーダによる事前学習における損失を計算する3つの手法について検討する。
損失ネットワークの特徴を復号化することを提案する。
- 参考スコア(独自算出の注目度): 0.1529342790344802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work investigates three methods for calculating loss for
autoencoder-based pretraining of image encoders: The commonly used
reconstruction loss, the more recently introduced deep perceptual similarity
loss, and a feature prediction loss proposed here; the latter turning out to be
the most efficient choice. Standard auto-encoder pretraining for deep learning
tasks is done by comparing the input image and the reconstructed image. Recent
work shows that predictions based on embeddings generated by image autoencoders
can be improved by training with perceptual loss, i.e., by adding a loss
network after the decoding step. So far the autoencoders trained with loss
networks implemented an explicit comparison of the original and reconstructed
images using the loss network. However, given such a loss network we show that
there is no need for the time-consuming task of decoding the entire image.
Instead, we propose to decode the features of the loss network, hence the name
"feature prediction loss". To evaluate this method we perform experiments on
three standard publicly available datasets (LunarLander-v2, STL-10, and SVHN)
and compare six different procedures for training image encoders (pixel-wise,
perceptual similarity, and feature prediction losses; combined with two
variations of image and feature encoding/decoding). The embedding-based
prediction results show that encoders trained with feature prediction loss is
as good or better than those trained with the other two losses. Additionally,
the encoder is significantly faster to train using feature prediction loss in
comparison to the other losses. The method implementation used in this work is
available online: https://github.com/guspih/Perceptual-Autoencoders
- Abstract(参考訳): 本研究は,イメージエンコーダの自己エンコーダに基づく事前学習のための損失を計算する3つの手法について検討する。
入力画像と再構成画像を比較することにより、ディープラーニングタスクのための標準オートエンコーダプリトレーニングを行う。
近年の研究では、画像オートエンコーダが生成する埋め込みに基づく予測は、知覚損失を伴うトレーニング、すなわちデコードステップ後に損失ネットワークを追加することで改善できることが示された。
これまでのところ、損失ネットワークで訓練されたオートエンコーダは、損失ネットワークを使用してオリジナルの画像と再構成された画像の明示的な比較を実装している。
しかし、そのような損失ネットワークを考えると、画像全体をデコードする時間を消費するタスクは不要であることを示している。
代わりに、損失ネットワークの特徴を復号化することを提案する。
本手法を評価するために,3つの標準公開データセット(LunarLander-v2,STL-10,SVHN)で実験を行い,画像エンコーダ(ピクセルワイド,知覚的類似性,特徴予測損失)のトレーニングを行う6つの異なる手順を比較した。
埋め込みベースの予測結果は,特徴予測損失で訓練されたエンコーダが,他の2つの損失で訓練されたエンコーダと同程度かそれ以上であることを示す。
さらに、エンコーダは、他の損失と比較して特徴予測損失を使用したトレーニングが大幅に高速である。
このプロジェクトで使われているメソッドの実装はオンラインで利用可能である。 https://github.com/guspih/perceptual-autoencoders
関連論文リスト
- Semantic Ensemble Loss and Latent Refinement for High-Fidelity Neural Image Compression [58.618625678054826]
本研究は、最適な視覚的忠実度のために設計された強化されたニューラル圧縮手法を提案する。
我々は,洗練されたセマンティック・アンサンブル・ロス,シャルボニエ・ロス,知覚的損失,スタイル・ロス,非バイナリ・ディバイザ・ロスを組み込んだモデルを構築した。
実験により,本手法は神経画像圧縮の統計的忠実度を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-01-25T08:11:27Z) - Unlocking Masked Autoencoders as Loss Function for Image and Video
Restoration [19.561055022474786]
我々は、損失の可能性を研究し、学習した損失関数は、画像とビデオの復元のためのニューラルネットワークの学習能力を高める」。
1)タスク適応型MAEからネイティブMAEへ、2)イメージタスクからビデオタスクへ、3)トランスフォーマー構造から畳み込みニューラルネットワーク構造へ。
論文 参考訳(メタデータ) (2023-03-29T02:41:08Z) - Reducing Redundancy in the Bottleneck Representation of the Autoencoders [98.78384185493624]
オートエンコーダは教師なしニューラルネットワークの一種であり、様々なタスクを解くのに使用できる。
本稿では,ボトルネック表現における特徴冗長性を明示的に罰する手法を提案する。
我々は,3つの異なるデータセットを用いた次元削減,MNISTデータセットを用いた画像圧縮,ファッションMNISTを用いた画像デノナイズという,さまざまなタスクにまたがってアプローチを検証した。
論文 参考訳(メタデータ) (2022-02-09T18:48:02Z) - Is Deep Image Prior in Need of a Good Education? [57.3399060347311]
画像再構成に有効な先行画像として, 奥行き画像が導入された。
その印象的な再建性にもかかわらず、学習技術や伝統的な再建技術と比べてアプローチは遅い。
計算課題に対処する2段階の学習パラダイムを開発する。
論文 参考訳(メタデータ) (2021-11-23T15:08:26Z) - EncoderMI: Membership Inference against Pre-trained Encoders in
Contrastive Learning [27.54202989524394]
コントラスト学習によって事前訓練された画像エンコーダに対する最初のメンバーシップ推論手法であるMIを提案する。
複数のデータセットで事前学習した画像エンコーダと、OpenAIが収集した4億(画像、テキスト)のペアで事前学習したContrastive Language- Image Pre-training (CLIP)画像エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-08-25T03:00:45Z) - Generic Perceptual Loss for Modeling Structured Output Dependencies [78.59700528239141]
トレーニングされた重みではなく、ネットワーク構造が重要であることを示す。
我々は、出力の構造化依存関係をモデル化するためにランダムに重み付けされたディープcnnが使用できることを実証する。
論文 参考訳(メタデータ) (2021-03-18T23:56:07Z) - Learning to Learn to Compress [25.23586503813838]
画像圧縮のためのエンドツーエンドのメタ学習システムを提案する。
メタラーニングに基づく学習画像圧縮のための新しい訓練パラダイムを提案する。
論文 参考訳(メタデータ) (2020-07-31T13:13:53Z) - Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。
Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T04:04:56Z) - Content Adaptive and Error Propagation Aware Deep Video Compression [110.31693187153084]
本稿では,コンテンツ適応型・誤り伝搬対応型ビデオ圧縮システムを提案する。
本手法では, 複数フレームの圧縮性能を1フレームではなく複数フレームで考慮し, 共同学習手法を用いる。
従来の圧縮システムでは手作りのコーディングモードを使用する代わりに,オンラインエンコーダ更新方式をシステム内に設計する。
論文 参考訳(メタデータ) (2020-03-25T09:04:24Z) - Improving Image Autoencoder Embeddings with Perceptual Loss [0.1529342790344802]
本研究はエンコーダの埋め込みの観点から知覚的損失を考察する。
オートエンコーダは、知覚的損失を使用して、3つの異なるコンピュータビジョンデータセットからイメージを埋め込むように訓練されている。
その結果、小型の特徴の物体位置決め作業において、知覚的損失は第10因子による結果を改善することができることがわかった。
論文 参考訳(メタデータ) (2020-01-10T13:48:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。