Fugu-MT 論文翻訳(概要): Optimizing Hierarchical Image VAEs for Sample Quality

論文の概要: Optimizing Hierarchical Image VAEs for Sample Quality

arxiv url: http://arxiv.org/abs/2210.10205v1
Date: Tue, 18 Oct 2022 23:10:58 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-20 13:25:14.335167
Title: Optimizing Hierarchical Image VAEs for Sample Quality
Title（参考訳）: サンプル品質のための階層的画像vaesの最適化
Authors: Eric Luhman, Troy Luhman
Abstract要約: 階層的変動オートエンコーダ (VAE) は, 画像モデリングタスクにおいて, 高精度な密度推定を実現している。これは、画像の非知覚的な詳細を圧縮する過度に強調する学習表現によるものである。我々は,各潜伏群におけるインフォメーション量を制御するKL重み付け戦略を導入し,学習目標のシャープネスを低減するためにガウス出力層を用いる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While hierarchical variational autoencoders (VAEs) have achieved great density estimation on image modeling tasks, samples from their prior tend to look less convincing than models with similar log-likelihood. We attribute this to learned representations that over-emphasize compressing imperceptible details of the image. To address this, we introduce a KL-reweighting strategy to control the amount of infor mation in each latent group, and employ a Gaussian output layer to reduce sharpness in the learning objective. To trade off image diversity for fidelity, we additionally introduce a classifier-free guidance strategy for hierarchical VAEs. We demonstrate the effectiveness of these techniques in our experiments. Code is available at https://github.com/tcl9876/visual-vae.
Abstract（参考訳）: 階層的変分オートエンコーダ(VAE)は画像モデリングタスクにおいて大きな密度推定を達成しているが、以前のサンプルは類似のログライクなモデルよりも説得力に欠ける傾向にある。我々は、画像の知覚不能な詳細を過大に強調する学習表現にこれを特徴づける。そこで本研究では,各潜伏群における減量量を制御するKL重み付け手法を導入し,ガウス出力層を用いて学習目標のシャープネスを低減した。画像の多様性を忠実さと引き換えに,階層型VAEの分類自由誘導戦略も導入する。我々はこれらの手法の有効性を実験で実証する。コードはhttps://github.com/tcl9876/visual-vaeで入手できる。

関連論文リスト

A Contrastive Learning Foundation Model Based on Perfectly Aligned Sample Pairs for Remote Sensing Images [18.191222010916405]
セマンティック・パーフェクト・アライメント・サンプル・ペアによる全目的リモートセンシング機能を実現するPerAと呼ばれる新しい自己教師型手法を提案する。私たちのフレームワークは,教師と生徒の一貫性を確保することによって,高品質な機能を提供します。約500万のRS画像を含むラベル付き事前学習データセットを収集する。
論文参考訳（メタデータ） (2025-05-26T03:12:49Z)
Multi-Scale Invertible Neural Network for Wide-Range Variable-Rate Learned Image Compression [90.59962443790593]
本稿では,制限を克服するために,可逆変換に基づく可変レート画像圧縮モデルを提案する。具体的には、入力画像をマルチスケールの潜在表現にマッピングする、軽量なマルチスケール非可逆ニューラルネットワークを設計する。実験結果から,提案手法は既存の可変レート法と比較して最先端性能を実現することが示された。
論文参考訳（メタデータ） (2025-03-27T09:08:39Z)
Image Embedding Sampling Method for Diverse Captioning [0.0]
本稿では,異なる画像領域に明示的に参加することで,キャプションの多様性と情報提供性を向上する学習自由フレームワークを提案する。提案手法は,画像キャプションのアライメント,セマンティックな整合性,多様性の観点から,より大規模なモデルに匹敵する性能を実現する。
論文参考訳（メタデータ） (2025-02-14T12:33:19Z)
DALDA: Data Augmentation Leveraging Diffusion Model and LLM with Adaptive Guidance Scaling [6.7206291284535125]
大規模言語モデル(LLM)と拡散モデル(DM)を利用した効果的なデータ拡張フレームワークを提案する。提案手法は,合成画像の多様性を増大させる問題に対処する。本手法は, 目標分布の付着性を維持しつつ, 多様性を向上した合成画像を生成する。
論文参考訳（メタデータ） (2024-09-25T14:02:43Z)
Transformer-based Clipped Contrastive Quantization Learning for Unsupervised Image Retrieval [15.982022297570108]
教師なし画像検索は、与えられたクエリ画像の類似画像を取得するために、任意のレベルなしに重要な視覚的特徴を学習することを目的としている。本稿では,パッチベースの処理により局所的なコンテキストを持つTransformerを用いて,画像のグローバルコンテキストを符号化するTransClippedCLRモデルを提案する。提案したクリップ付きコントラスト学習の結果は、バニラコントラスト学習と同一のバックボーンネットワークと比較して、すべてのデータセットで大幅に改善されている。
論文参考訳（メタデータ） (2024-01-27T09:39:11Z)
ARNIQA: Learning Distortion Manifold for Image Quality Assessment [28.773037051085318]
No-Reference Image Quality Assessment (NR-IQA) は、高品質な参照画像を必要としない、人間の知覚に合わせて画像品質を測定する手法を開発することを目的としている。本研究では、画像歪み多様体をモデル化し、本質的な表現を得るための自己教師型アプローチ ARNIQA を提案する。
論文参考訳（メタデータ） (2023-10-20T17:22:25Z)
MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。所望のプロパティを統一する単段および単段のMOCAを提案する。我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文参考訳（メタデータ） (2023-07-18T15:46:20Z)
Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文参考訳（メタデータ） (2023-03-12T05:28:55Z)
Masked Images Are Counterfactual Samples for Robust Fine-tuning [77.82348472169335]
微調整の深層学習モデルは、分布内(ID)性能と分布外(OOD)堅牢性の間のトレードオフにつながる可能性がある。そこで本研究では,マスク付き画像を対物サンプルとして用いて,ファインチューニングモデルのロバスト性を向上させる新しいファインチューニング手法を提案する。
論文参考訳（メタデータ） (2023-03-06T11:51:28Z)
Vector Quantized Wasserstein Auto-Encoder [57.29764749855623]
生成的視点から深層離散表現を学習する。我々は,コードワード列上の離散分布を付与し,コードワード列上の分布をデータ分布に伝達する決定論的デコーダを学習する。 WS 距離のクラスタリングの観点と結びつけて,より優れた,より制御可能なクラスタリングソリューションを実現するための,さらなる理論を開発しています。
論文参考訳（メタデータ） (2023-02-12T13:51:36Z)
Hierarchical Residual Learning Based Vector Quantized Variational Autoencoder for Image Reconstruction and Generation [19.92324010429006]
本稿では,階層的なデータの離散表現を学習するHR-VQVAEと呼ばれる多層変分オートエンコーダを提案する。画像再構成と生成のタスクについて,本手法の評価を行った。
論文参考訳（メタデータ） (2022-08-09T06:04:25Z)
Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文参考訳（メタデータ） (2022-06-30T18:31:51Z)
DWDN: Deep Wiener Deconvolution Network for Non-Blind Image Deblurring [66.91879314310842]
本稿では,古典的なWienerデコンボリューションフレームワークを学習深い特徴と統合することにより,特徴空間における明示的なデコンボリューションプロセスを提案する。マルチスケールのカスケード機能改善モジュールは、分離された深い特徴から退色画像を予測する。提案したDeep Wienerデコンボリューションネットワークは,目に見える成果物が少なく,かつ,最先端の非盲点画像デコンボリューション手法を広いマージンで定量的に上回っていることを示す。
論文参考訳（メタデータ） (2021-03-18T00:38:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。