論文の概要: Optimizing Hierarchical Image VAEs for Sample Quality
- arxiv url: http://arxiv.org/abs/2210.10205v1
- Date: Tue, 18 Oct 2022 23:10:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 13:25:14.335167
- Title: Optimizing Hierarchical Image VAEs for Sample Quality
- Title(参考訳): サンプル品質のための階層的画像vaesの最適化
- Authors: Eric Luhman, Troy Luhman
- Abstract要約: 階層的変動オートエンコーダ (VAE) は, 画像モデリングタスクにおいて, 高精度な密度推定を実現している。
これは、画像の非知覚的な詳細を圧縮する過度に強調する学習表現によるものである。
我々は,各潜伏群におけるインフォメーション量を制御するKL重み付け戦略を導入し,学習目標のシャープネスを低減するためにガウス出力層を用いる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While hierarchical variational autoencoders (VAEs) have achieved great
density estimation on image modeling tasks, samples from their prior tend to
look less convincing than models with similar log-likelihood. We attribute this
to learned representations that over-emphasize compressing imperceptible
details of the image. To address this, we introduce a KL-reweighting strategy
to control the amount of infor mation in each latent group, and employ a
Gaussian output layer to reduce sharpness in the learning objective. To trade
off image diversity for fidelity, we additionally introduce a classifier-free
guidance strategy for hierarchical VAEs. We demonstrate the effectiveness of
these techniques in our experiments. Code is available at
https://github.com/tcl9876/visual-vae.
- Abstract(参考訳): 階層的変分オートエンコーダ(VAE)は画像モデリングタスクにおいて大きな密度推定を達成しているが、以前のサンプルは類似のログライクなモデルよりも説得力に欠ける傾向にある。
我々は、画像の知覚不能な詳細を過大に強調する学習表現にこれを特徴づける。
そこで本研究では,各潜伏群における減量量を制御するKL重み付け手法を導入し,ガウス出力層を用いて学習目標のシャープネスを低減した。
画像の多様性を忠実さと引き換えに,階層型VAEの分類自由誘導戦略も導入する。
我々はこれらの手法の有効性を実験で実証する。
コードはhttps://github.com/tcl9876/visual-vaeで入手できる。
関連論文リスト
- DALDA: Data Augmentation Leveraging Diffusion Model and LLM with Adaptive Guidance Scaling [6.7206291284535125]
大規模言語モデル(LLM)と拡散モデル(DM)を利用した効果的なデータ拡張フレームワークを提案する。
提案手法は,合成画像の多様性を増大させる問題に対処する。
本手法は, 目標分布の付着性を維持しつつ, 多様性を向上した合成画像を生成する。
論文 参考訳(メタデータ) (2024-09-25T14:02:43Z) - Transformer-based Clipped Contrastive Quantization Learning for
Unsupervised Image Retrieval [15.982022297570108]
教師なし画像検索は、与えられたクエリ画像の類似画像を取得するために、任意のレベルなしに重要な視覚的特徴を学習することを目的としている。
本稿では,パッチベースの処理により局所的なコンテキストを持つTransformerを用いて,画像のグローバルコンテキストを符号化するTransClippedCLRモデルを提案する。
提案したクリップ付きコントラスト学習の結果は、バニラコントラスト学習と同一のバックボーンネットワークと比較して、すべてのデータセットで大幅に改善されている。
論文 参考訳(メタデータ) (2024-01-27T09:39:11Z) - ARNIQA: Learning Distortion Manifold for Image Quality Assessment [28.773037051085318]
No-Reference Image Quality Assessment (NR-IQA) は、高品質な参照画像を必要としない、人間の知覚に合わせて画像品質を測定する手法を開発することを目的としている。
本研究では、画像歪み多様体をモデル化し、本質的な表現を得るための自己教師型アプローチ ARNIQA を提案する。
論文 参考訳(メタデータ) (2023-10-20T17:22:25Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Masked Images Are Counterfactual Samples for Robust Fine-tuning [77.82348472169335]
微調整の深層学習モデルは、分布内(ID)性能と分布外(OOD)堅牢性の間のトレードオフにつながる可能性がある。
そこで本研究では,マスク付き画像を対物サンプルとして用いて,ファインチューニングモデルのロバスト性を向上させる新しいファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-03-06T11:51:28Z) - Vector Quantized Wasserstein Auto-Encoder [57.29764749855623]
生成的視点から深層離散表現を学習する。
我々は,コードワード列上の離散分布を付与し,コードワード列上の分布をデータ分布に伝達する決定論的デコーダを学習する。
WS 距離のクラスタリングの観点と結びつけて,より優れた,より制御可能なクラスタリングソリューションを実現するための,さらなる理論を開発しています。
論文 参考訳(メタデータ) (2023-02-12T13:51:36Z) - Hierarchical Residual Learning Based Vector Quantized Variational
Autoencoder for Image Reconstruction and Generation [19.92324010429006]
本稿では,階層的なデータの離散表現を学習するHR-VQVAEと呼ばれる多層変分オートエンコーダを提案する。
画像再構成と生成のタスクについて,本手法の評価を行った。
論文 参考訳(メタデータ) (2022-08-09T06:04:25Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - DWDN: Deep Wiener Deconvolution Network for Non-Blind Image Deblurring [66.91879314310842]
本稿では,古典的なWienerデコンボリューションフレームワークを学習深い特徴と統合することにより,特徴空間における明示的なデコンボリューションプロセスを提案する。
マルチスケールのカスケード機能改善モジュールは、分離された深い特徴から退色画像を予測する。
提案したDeep Wienerデコンボリューションネットワークは,目に見える成果物が少なく,かつ,最先端の非盲点画像デコンボリューション手法を広いマージンで定量的に上回っていることを示す。
論文 参考訳(メタデータ) (2021-03-18T00:38:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。