論文の概要: Optimizing Hierarchical Image VAEs for Sample Quality
- arxiv url: http://arxiv.org/abs/2210.10205v1
- Date: Tue, 18 Oct 2022 23:10:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 13:25:14.335167
- Title: Optimizing Hierarchical Image VAEs for Sample Quality
- Title(参考訳): サンプル品質のための階層的画像vaesの最適化
- Authors: Eric Luhman, Troy Luhman
- Abstract要約: 階層的変動オートエンコーダ (VAE) は, 画像モデリングタスクにおいて, 高精度な密度推定を実現している。
これは、画像の非知覚的な詳細を圧縮する過度に強調する学習表現によるものである。
我々は,各潜伏群におけるインフォメーション量を制御するKL重み付け戦略を導入し,学習目標のシャープネスを低減するためにガウス出力層を用いる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While hierarchical variational autoencoders (VAEs) have achieved great
density estimation on image modeling tasks, samples from their prior tend to
look less convincing than models with similar log-likelihood. We attribute this
to learned representations that over-emphasize compressing imperceptible
details of the image. To address this, we introduce a KL-reweighting strategy
to control the amount of infor mation in each latent group, and employ a
Gaussian output layer to reduce sharpness in the learning objective. To trade
off image diversity for fidelity, we additionally introduce a classifier-free
guidance strategy for hierarchical VAEs. We demonstrate the effectiveness of
these techniques in our experiments. Code is available at
https://github.com/tcl9876/visual-vae.
- Abstract(参考訳): 階層的変分オートエンコーダ(VAE)は画像モデリングタスクにおいて大きな密度推定を達成しているが、以前のサンプルは類似のログライクなモデルよりも説得力に欠ける傾向にある。
我々は、画像の知覚不能な詳細を過大に強調する学習表現にこれを特徴づける。
そこで本研究では,各潜伏群における減量量を制御するKL重み付け手法を導入し,ガウス出力層を用いて学習目標のシャープネスを低減した。
画像の多様性を忠実さと引き換えに,階層型VAEの分類自由誘導戦略も導入する。
我々はこれらの手法の有効性を実験で実証する。
コードはhttps://github.com/tcl9876/visual-vaeで入手できる。
関連論文リスト
- Image Embedding Sampling Method for Diverse Captioning [0.0]
本稿では,異なる画像領域に明示的に参加することで,キャプションの多様性と情報提供性を向上する学習自由フレームワークを提案する。
提案手法は,画像キャプションのアライメント,セマンティックな整合性,多様性の観点から,より大規模なモデルに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2025-02-14T12:33:19Z) - Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [77.86514804787622]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。
自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。
本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文 参考訳(メタデータ) (2025-01-23T18:59:43Z) - DALDA: Data Augmentation Leveraging Diffusion Model and LLM with Adaptive Guidance Scaling [6.7206291284535125]
大規模言語モデル(LLM)と拡散モデル(DM)を利用した効果的なデータ拡張フレームワークを提案する。
提案手法は,合成画像の多様性を増大させる問題に対処する。
本手法は, 目標分布の付着性を維持しつつ, 多様性を向上した合成画像を生成する。
論文 参考訳(メタデータ) (2024-09-25T14:02:43Z) - ARNIQA: Learning Distortion Manifold for Image Quality Assessment [28.773037051085318]
No-Reference Image Quality Assessment (NR-IQA) は、高品質な参照画像を必要としない、人間の知覚に合わせて画像品質を測定する手法を開発することを目的としている。
本研究では、画像歪み多様体をモデル化し、本質的な表現を得るための自己教師型アプローチ ARNIQA を提案する。
論文 参考訳(メタデータ) (2023-10-20T17:22:25Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Masked Images Are Counterfactual Samples for Robust Fine-tuning [77.82348472169335]
微調整の深層学習モデルは、分布内(ID)性能と分布外(OOD)堅牢性の間のトレードオフにつながる可能性がある。
そこで本研究では,マスク付き画像を対物サンプルとして用いて,ファインチューニングモデルのロバスト性を向上させる新しいファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-03-06T11:51:28Z) - Hierarchical Residual Learning Based Vector Quantized Variational
Autoencoder for Image Reconstruction and Generation [19.92324010429006]
本稿では,階層的なデータの離散表現を学習するHR-VQVAEと呼ばれる多層変分オートエンコーダを提案する。
画像再構成と生成のタスクについて,本手法の評価を行った。
論文 参考訳(メタデータ) (2022-08-09T06:04:25Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - DWDN: Deep Wiener Deconvolution Network for Non-Blind Image Deblurring [66.91879314310842]
本稿では,古典的なWienerデコンボリューションフレームワークを学習深い特徴と統合することにより,特徴空間における明示的なデコンボリューションプロセスを提案する。
マルチスケールのカスケード機能改善モジュールは、分離された深い特徴から退色画像を予測する。
提案したDeep Wienerデコンボリューションネットワークは,目に見える成果物が少なく,かつ,最先端の非盲点画像デコンボリューション手法を広いマージンで定量的に上回っていることを示す。
論文 参考訳(メタデータ) (2021-03-18T00:38:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。