論文の概要: VIVAT: Virtuous Improving VAE Training through Artifact Mitigation
- arxiv url: http://arxiv.org/abs/2506.07863v1
- Date: Mon, 09 Jun 2025 15:27:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:11.025403
- Title: VIVAT: Virtuous Improving VAE Training through Artifact Mitigation
- Title(参考訳): VIVAT: 人工物除去によるVAEトレーニングを活発に改善
- Authors: Lev Novitskiy, Viacheslav Vasilev, Maria Kovaleva, Vladimir Arkhipkin, Denis Dimitrov,
- Abstract要約: 本稿では, KL-VAEトレーニングにおいて, 急激なアーキテクチャ変更を伴わずに, 共通成果物を緩和するための体系的アプローチであるVIVATを紹介する。
カラーシフト、グリッドパターン、ぼやけ、コーナー、ドロップレットアーティファクトの5つの一般的なアーティファクトの詳細な分類を示し、その根本原因を分析します。
- 参考スコア(独自算出の注目度): 4.295130967329365
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Variational Autoencoders (VAEs) remain a cornerstone of generative computer vision, yet their training is often plagued by artifacts that degrade reconstruction and generation quality. This paper introduces VIVAT, a systematic approach to mitigating common artifacts in KL-VAE training without requiring radical architectural changes. We present a detailed taxonomy of five prevalent artifacts - color shift, grid patterns, blur, corner and droplet artifacts - and analyze their root causes. Through straightforward modifications, including adjustments to loss weights, padding strategies, and the integration of Spatially Conditional Normalization, we demonstrate significant improvements in VAE performance. Our method achieves state-of-the-art results in image reconstruction metrics (PSNR and SSIM) across multiple benchmarks and enhances text-to-image generation quality, as evidenced by superior CLIP scores. By preserving the simplicity of the KL-VAE framework while addressing its practical challenges, VIVAT offers actionable insights for researchers and practitioners aiming to optimize VAE training.
- Abstract(参考訳): 変分オートエンコーダ(VAE)は、生成的コンピュータビジョンの基盤として残っているが、そのトレーニングは、再構築や生成品質を低下させるアーティファクトに悩まされていることが多い。
本稿では, KL-VAEトレーニングにおいて, 急激なアーキテクチャ変更を伴わずに, 共通成果物を緩和するための体系的アプローチであるVIVATを紹介する。
カラーシフト、グリッドパターン、ぼやけ、コーナー、ドロップレットアーティファクトの5つの一般的なアーティファクトの詳細な分類を示し、その根本原因を分析します。
損失重みの調整,パディング戦略,空間条件正規化の統合など,直感的な修正により,VAE性能の大幅な改善が示された。
提案手法は,複数のベンチマークにおける画像再構成指標(PSNR,SSIM)の最先端化を実現し,優れたCLIPスコアによって証明されたテキスト・画像生成品質を向上させる。
KL-VAEフレームワークのシンプルさを維持しながら実践的な課題に対処することで、VIVATはVAEトレーニングの最適化を目指す研究者や実践者に実用的な洞察を提供する。
関連論文リスト
- VTBench: Evaluating Visual Tokenizers for Autoregressive Image Generation [11.529598741483076]
視覚トークン化器(VT)は連続した画素入力を離散トークンシーケンスにマッピングする。
現在の離散VTは連続的変分オートエンコーダ(VAE)に大きく遅れており、画像再構成の劣化と細部やテキストの保存不良につながる。
既存のベンチマークでは、VTパフォーマンスを分離することなく、エンドツーエンドの世代品質に重点を置いている。
VTBenchは、画像再構成、詳細保存、テキスト保存の3つのコアタスクに対して、VTを体系的に評価する包括的なベンチマークである。
論文 参考訳(メタデータ) (2025-05-19T17:59:01Z) - Enhancing Variational Autoencoders with Smooth Robust Latent Encoding [54.74721202894622]
変分オートエンコーダ(VAE)は拡散に基づく生成モデルをスケールアップする上で重要な役割を果たしている。
Smooth Robust Latent VAEは、世代品質とロバスト性の両方を向上する、新しい対向トレーニングフレームワークである。
実験により、SRL-VAEは、Nightshade攻撃や画像編集攻撃に対して、画像再構成とテキスト誘導画像編集において、生成品質とロバスト性の両方を改善することが示された。
論文 参考訳(メタデータ) (2025-04-24T03:17:57Z) - Progressive Fine-to-Coarse Reconstruction for Accurate Low-Bit Post-Training Quantization in Vision Transformers [13.316135182889296]
後トレーニング量子化(PTQ)は視覚変換器(ViT)の圧縮に広く採用されている。
低ビット表現に量子化されると、完全精度の表現に比べて大きな性能低下がしばしば起こる。
低ビット量子化ビジョントランスの性能を大幅に向上させるPFCR法を提案する。
論文 参考訳(メタデータ) (2024-12-19T08:38:59Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Boosting Image Restoration via Priors from Pre-trained Models [54.83907596825985]
我々は、OSFによるターゲット復元ネットワークの復元結果を改善するために、Pre-Train-Guided Refinement Module (PTG-RM)と呼ばれる軽量モジュールを学習する。
PTG-RMは、低照度強化、デラリニング、デブロアリング、デノナイジングなど、様々なタスクにおける様々なモデルの復元性能を効果的に向上させる。
論文 参考訳(メタデータ) (2024-03-11T15:11:57Z) - Attention-Guided Masked Autoencoders For Learning Image Representations [16.257915216763692]
Masked Autoencoders (MAE) はコンピュータビジョンタスクの教師なし事前訓練のための強力な方法として確立されている。
本稿では,注意誘導損失関数を用いて再建過程を通知する。
評価の結果,事前学習したモデルでは,バニラMAEよりも遅延表現が優れていることがわかった。
論文 参考訳(メタデータ) (2024-02-23T08:11:25Z) - Image Reconstruction using Enhanced Vision Transformer [0.08594140167290097]
画像のデノイング,デブロアリング,インペイントといったタスクに使用できる新しい画像再構成フレームワークを提案する。
このプロジェクトで提案されるモデルは、2次元画像を入力として取り込んで埋め込みを出力するビジョントランスフォーマー(ViT)に基づいている。
モデル再構築機能を改善するために,フレームワークに4つの最適化手法を組み込んだ。
論文 参考訳(メタデータ) (2023-07-11T02:14:18Z) - Defending Variational Autoencoders from Adversarial Attacks with MCMC [74.36233246536459]
変分オートエンコーダ(VAE)は、様々な領域で使用される深部生成モデルである。
以前の研究が示すように、視覚的にわずかに修正された入力に対する予期せぬ潜在表現と再構成を生成するために、VAEを簡単に騙すことができる。
本稿では, 敵攻撃構築のための目的関数について検討し, モデルのロバスト性を評価する指標を提案し, 解決策を提案する。
論文 参考訳(メタデータ) (2022-03-18T13:25:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。