論文の概要: Discrete Variational Autoencoding via Policy Search
- arxiv url: http://arxiv.org/abs/2509.24716v1
- Date: Mon, 29 Sep 2025 12:44:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.984569
- Title: Discrete Variational Autoencoding via Policy Search
- Title(参考訳): ポリシーサーチによる離散変分自動符号化
- Authors: Michael Drolet, Firas Al-Hafez, Aditya Bhatt, Jan Peters, Oleg Arenz,
- Abstract要約: 変分オートエンコーダ(VAE)の離散遅延ボトルネックは高いビット効率を提供する。
離散確率変数は、正確に微分可能なパラメータ化を許さない。
非パラメトリックエンコーダの自然な勾配を利用する離散型VAEのためのトレーニングフレームワークを提案する。
自動ステップサイズ適応とトランスフォーマーベースのエンコーダを組み合わせることで、ImageNetのような挑戦的なデータセットにスケールする。
- 参考スコア(独自算出の注目度): 16.257957838291563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Discrete latent bottlenecks in variational autoencoders (VAEs) offer high bit efficiency and can be modeled with autoregressive discrete distributions, enabling parameter-efficient multimodal search with transformers. However, discrete random variables do not allow for exact differentiable parameterization; therefore, discrete VAEs typically rely on approximations, such as Gumbel-Softmax reparameterization or straight-through gradient estimates, or employ high-variance gradient-free methods such as REINFORCE that have had limited success on high-dimensional tasks such as image reconstruction. Inspired by popular techniques in policy search, we propose a training framework for discrete VAEs that leverages the natural gradient of a non-parametric encoder to update the parametric encoder without requiring reparameterization. Our method, combined with automatic step size adaptation and a transformer-based encoder, scales to challenging datasets such as ImageNet and outperforms both approximate reparameterization methods and quantization-based discrete autoencoders in reconstructing high-dimensional data from compact latent spaces, achieving a 20% improvement on FID Score for ImageNet 256.
- Abstract(参考訳): 可変オートエンコーダ(VAE)における離散遅延ボトルネックは、高いビット効率を提供し、自己回帰的な離散分布でモデル化することができ、トランスフォーマを用いたパラメータ効率の高いマルチモーダル探索を可能にする。
しかし、離散確率変数は正確な微分可能なパラメータ化を許さないため、離散VAEは一般にガンベル・ソフトマックス再パラメータ化やストレートスルー勾配推定のような近似に依存する。
政策探索における一般的な手法に着想を得て,非パラメトリックエンコーダの自然な勾配を利用してパラメトリックエンコーダを再パラメータ化することなく更新する離散VAEのためのトレーニングフレームワークを提案する。
自動ステップサイズ適応とトランスフォーマーベースのエンコーダを組み合わせることで、ImageNetのような挑戦的なデータセットにスケールし、コンパクトなラテント空間から高次元データを再構成する際に、近似再パラメータ化法と量子化に基づく離散オートエンコーダの両方を上回り、ImageNet 256のFIDスコアを20%改善する。
関連論文リスト
- You Only Train Once [11.97836331714694]
You Only Train Once (YOTO)は、損失選択と重み付けの後者の側面において、トレーニングを1ショットに制限することに貢献する。
複数の経験的損失を同時に最適化するために広く用いられている複合損失定式化の微分可能性を活用する。
YOTOは、未確認テストデータにおいて、最高のグリッド検索モデルよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-06-04T18:04:58Z) - Likelihood-Free Variational Autoencoders [21.092166159353702]
変分オートエンコーダ (VAEs) は通常、確率的デコーダ(英語版)(確率的デコーダ(英語版)(probabilistic decoder)に依存する。
決定論的デコーダを持ち,エネルギースコア(適切なスコアリングルール)を用いる,新たな可能性のない生成フレームワークであるEnVAEを提案する。
我々のフレームワークは、生成モデルにおけるフレキシブルで非パラメトリックな分布学習のための汎用的でスケーラブルで統計的に原則化された代替手段を提供する。
論文 参考訳(メタデータ) (2025-04-24T14:44:46Z) - Multi-Scale Invertible Neural Network for Wide-Range Variable-Rate Learned Image Compression [90.59962443790593]
本稿では,制限を克服するために,可逆変換に基づく可変レート画像圧縮モデルを提案する。
具体的には、入力画像をマルチスケールの潜在表現にマッピングする、軽量なマルチスケール非可逆ニューラルネットワークを設計する。
実験結果から,提案手法は既存の可変レート法と比較して最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2025-03-27T09:08:39Z) - Reduced Order Modeling with Shallow Recurrent Decoder Networks [5.686433280542813]
SHRED-ROMは、数値的に不安定な逆近似を符号化する堅牢な復号のみの戦略である。
SHRED-ROMは、固定センサや移動センサの限られた値から、新しいパラメータ値の状態を正確に再構成する。
論文 参考訳(メタデータ) (2025-02-15T23:41:31Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Ensemble Kalman Filtering Meets Gaussian Process SSM for Non-Mean-Field and Online Inference [47.460898983429374]
我々は,非平均場(NMF)変動推定フレームワークにアンサンブルカルマンフィルタ(EnKF)を導入し,潜在状態の後方分布を近似する。
EnKFとGPSSMのこの新しい結婚は、変分分布の学習における広範なパラメータ化の必要性をなくすだけでなく、エビデンスの下限(ELBO)の解釈可能でクローズドな近似を可能にする。
得られたEnKF支援オンラインアルゴリズムは、データ適合精度を確保しつつ、モデル正規化を組み込んで過度適合を緩和し、目的関数を具現化する。
論文 参考訳(メタデータ) (2023-12-10T15:22:30Z) - Patch Similarity Aware Data-Free Quantization for Vision Transformers [2.954890575035673]
Patch similarity Aware data-free Quantization framework for Vision Transformersを提案する。
本研究では,ガウス雑音と実画像の処理において,自己アテンションモジュールの特性を解析し,一般的な相違点(パッチ類似点)を明らかにする。
PSAQ-ViTの有効性を検証するため,様々なベンチマークで実験およびアブレーション実験を行った。
論文 参考訳(メタデータ) (2022-03-04T11:47:20Z) - Rate Distortion Characteristic Modeling for Neural Image Compression [59.25700168404325]
エンドツーエンドの最適化機能は、ニューラルイメージ圧縮(NIC)の優れた損失圧縮性能を提供する。
異なるモデルは、R-D空間の異なる点に到達するために訓練される必要がある。
深層ネットワークと統計モデルを用いてNICのR-D挙動を記述するために,本質的な数学的関数の定式化に努めている。
論文 参考訳(メタデータ) (2021-06-24T12:23:05Z) - On the Encoder-Decoder Incompatibility in Variational Text Modeling and
Beyond [82.18770740564642]
変分オートエンコーダ(VAE)は、潜時変数と償却変分推論を結合する。
我々は,データ多様体のパラメータ化が不十分なエンコーダ・デコーダの不整合性を観察する。
同一構造を持つ決定論的オートエンコーダとVAEモデルを結合した結合型VAEを提案する。
論文 参考訳(メタデータ) (2020-04-20T10:34:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。