論文の概要: Distilling Latent Manifolds: Resolution Extrapolation by Variational Autoencoders
- arxiv url: http://arxiv.org/abs/2603.14536v1
- Date: Sun, 15 Mar 2026 18:20:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.872748
- Title: Distilling Latent Manifolds: Resolution Extrapolation by Variational Autoencoders
- Title(参考訳): 蒸留潜在多様体:変分オートエンコーダによる分解能外挿
- Authors: Jiaming Chu, Tao Wang, Lei Jin,
- Abstract要約: 変分オートエンコーダ(VAE)エンコーダは、現代の生成モデルにおいて重要な役割を果たす。
VAEエンコーダ蒸留において,低分解能でのみ蒸留された小型エンコーダは,そのネイティブ分解能において再構成性能が劣っている。
この蒸留エンコーダは、2,562ドル(約2,600円)以上の解像度で訓練されることはないが、効率よく5122ドル(約5,500円)の解像度の入力に一般化される。
- 参考スコア(独自算出の注目度): 6.6001209552146305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Variational Autoencoder (VAE) encoders play a critical role in modern generative models, yet their computational cost often motivates the use of knowledge distillation or quantification to obtain compact alternatives. Existing studies typically believe that the model work better on the samples closed to their training data distribution than unseen data distribution. In this work, we report a counter-intuitive phenomenon in VAE encoder distillation: a compact encoder distilled only at low resolutions exhibits poor reconstruction performance at its native resolution, but achieves dramatically improved results when evaluated at higher, unseen input resolutions. Despite never being trained beyond $256^2$ resolution, the distilled encoder generalizes effectively to $512^2$ resolution inputs, partially inheriting the teacher model's resolution preference.We further analyze latent distributions across resolutions and find that higher-resolution inputs produce latent representations more closely aligned with the teacher's manifold. Through extensive experiments on ImageNet-256, we show that simple resolution remapping-upsampling inputs before encoding and downsampling reconstructions for evaluation-leads to substantial gains across PSNR, MSE, SSIM, LPIPS, and rFID metrics. These findings suggest that VAE encoder distillation learns resolution-consistent latent manifolds rather than resolution-specific pixel mappings. This also means that the high training cost on memory, time and high-resolution datasets are not necessary conditions for distilling a VAE with high-resolution image reconstruction capabilities. On low resolution datasets, the distillation model still could learn the detailed knowledge of the teacher model in high-resolution image reconstruction.
- Abstract(参考訳): 変分オートエンコーダ(VAE)エンコーダは、現代の生成モデルにおいて重要な役割を果たすが、その計算コストは、しばしば知識の蒸留や定量化を利用して、コンパクトな代替品を得る動機となる。
既存の研究は、モデルがトレーニングデータ分布に閉じたサンプルに対して、目に見えないデータ分布よりもうまく働くと信じている。
本稿では, VAEエンコーダ蒸留における逆直観的現象について報告する。低解像度で蒸留したコンパクトエンコーダは, そのネイティブ解像度では再現性能が劣るが, 高い, 見えない入力解像度では, 劇的に改善された結果が得られる。
蒸留エンコーダは,解像度が256^2$を超えないにもかかわらず,効率よく512^2$の解像度の入力を一般化し,教師モデルの解像度の好みを部分的に継承する。
ImageNet-256の広範にわたる実験により,PSNR, MSE, SSIM, LPIPS, rFID測定値において, 評価リードのエンコードとダウンサンプル化を行う前に, インプットを簡易に再マッピングする手法が得られた。
これらの結果から,VAEエンコーダ蒸留法は分解能特異的な画素マッピングではなく,分解能を有する潜在多様体を学習することが示唆された。
これはまた、メモリ、時間、高解像度データセットに対する高いトレーニングコストが、高解像度の画像再構成機能を備えたVAEを蒸留するために必要な条件ではないことを意味する。
低分解能データセットでは、蒸留モデルは高分解能画像再構成における教師モデルの詳細な知識を学習することができる。
関連論文リスト
- Quantum Down Sampling Filter for Variational Auto-encoder [0.504868948270058]
変分オートエンコーダ(VAE)は、生成モデリングと画像再構成の基礎となる。
本研究では,量子変分オートエンコーダ(Q-VAE)のハイブリッドモデルを提案する。
Q-VAEはエンコーダに量子符号化を統合し、完全に接続された層を利用して意味のある表現を抽出する。
論文 参考訳(メタデータ) (2025-01-09T11:08:55Z) - One Step Diffusion-based Super-Resolution with Time-Aware Distillation [60.262651082672235]
拡散に基づく画像超解像(SR)法は,低解像度画像から細部まで細部まで,高解像度画像の再構成に有望であることを示す。
近年,拡散型SRモデルの知識蒸留によるサンプリング効率の向上が試みられている。
我々は,効率的な画像超解像を実現するため,TAD-SRというタイムアウェア拡散蒸留法を提案する。
論文 参考訳(メタデータ) (2024-08-14T11:47:22Z) - Pairwise Distance Distillation for Unsupervised Real-World Image Super-Resolution [38.79439380482431]
実世界の超解像(RWSR)は低分解能入力における未知の劣化に直面している。
既存の手法では、学習インプットの複雑な合成拡張を通じて視覚一般モデルを学習することでこの問題にアプローチする。
実世界の劣化に対する教師なしRWSRに対処するための,新しい相互距離蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-10T01:46:40Z) - Learning to Be a Transformer to Pinpoint Anomalies [12.442574943138794]
最近の産業異常検出およびIADS(Industrial Anomaly Detection and (IADS))は、224x224ピクセルなどの低解像度画像を処理する。
本稿では,高精細な入力画像を非常に効率的に処理しながら,強い事前学習機能を活用する新しい教師-学生パラダイムを提案する。
提案手法では,高解像度画像から異常を検出でき,競合他社よりも高速に動作可能である。
論文 参考訳(メタデータ) (2024-07-04T17:59:26Z) - ScaleCrafter: Tuning-free Higher-Resolution Visual Generation with
Diffusion Models [126.35334860896373]
本研究では,事前学習した拡散モデルから,トレーニング画像サイズよりもはるかに高解像度で画像を生成する能力について検討する。
注意ベースや共同拡散アプローチのような、高分解能な生成のための既存の研究は、これらの問題にうまく対処できない。
本稿では,推論中の畳み込み知覚場を動的に調整できる簡易かつ効果的な再拡張法を提案する。
論文 参考訳(メタデータ) (2023-10-11T17:52:39Z) - Any-resolution Training for High-resolution Image Synthesis [55.19874755679901]
生成モデルは、様々な大きさの自然画像であっても、一定の解像度で動作します。
すべてのピクセルが重要であり、そのネイティブ解像度で収集された可変サイズのイメージを持つデータセットを作成する、と我々は主張する。
ランダムなスケールでパッチをサンプリングし、可変出力解像度で新しいジェネレータを訓練するプロセスである。
論文 参考訳(メタデータ) (2022-04-14T17:59:31Z) - Pixel Distillation: A New Knowledge Distillation Scheme for Low-Resolution Image Recognition [124.80263629921498]
アーキテクチャ制約を同時に破りながら知識蒸留を入力レベルまで拡張するPixel Distillationを提案する。
このようなスキームは、ネットワークアーキテクチャと画像品質の両方をリソースの全体的な要求に応じて調整できるため、展開のための柔軟なコスト制御を実現することができる。
論文 参考訳(メタデータ) (2021-12-17T14:31:40Z) - Multi-Scale Aligned Distillation for Low-Resolution Detection [68.96325141432078]
本稿では,高分解能モデルや多分解能モデルから知識を抽出することで,低分解能モデルの性能を向上させることに焦点を当てる。
いくつかのインスタンスレベルの検出タスクとデータセットにおいて,本手法を用いて訓練された低解像度モデルと,従来のマルチスケールトレーニングによる訓練された高解像度モデルとを競合的に処理する。
論文 参考訳(メタデータ) (2021-09-14T12:53:35Z) - Learning When and Where to Zoom with Deep Reinforcement Learning [101.79271767464947]
そこで本稿では,高解像度のデータをペアで,安価で低解像度の画像に対していつ,どこで使用・取得するかを識別する強化学習手法を提案する。
我々は、CIFAR10、CIFAR100、ImageNet、fMoWデータセット上で実験を行い、全高解像度画像を使用するモデルと同等の精度を維持しながら、非常に少ない高解像度データを使用する。
論文 参考訳(メタデータ) (2020-03-01T07:16:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。