Fugu-MT 論文翻訳(概要): Epsilon-VAE: Denoising as Visual Decoding

論文の概要: Epsilon-VAE: Denoising as Visual Decoding

arxiv url: http://arxiv.org/abs/2410.04081v3
Date: Mon, 24 Feb 2025 22:54:41 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-26 17:42:44.443516
Title: Epsilon-VAE: Denoising as Visual Decoding
Title（参考訳）: Epsilon-VAE: ビジュアルデコードとしてのデノベーション
Authors: Long Zhao, Sanghyun Woo, Ziyu Wan, Yandong Li, Han Zhang, Boqing Gong, Hartwig Adam, Xuhui Jia, Ting Liu,
Abstract要約: 生成モデリングにおいて、トークン化は複雑なデータをコンパクトで構造化された表現に単純化し、より効率的で学習可能な空間を作り出す。現在の視覚的トークン化手法は従来のオートエンコーダフレームワークに依存しており、エンコーダはデータを潜在表現に圧縮し、デコーダは元の入力を再構築する。具体的には,デコーダを拡散処理に置き換え,ノイズを反復的に除去して元のイメージを復元し,エンコーダが提供する潜伏者によって誘導される。
参考スコア（独自算出の注目度）: 61.29255979767292
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In generative modeling, tokenization simplifies complex data into compact, structured representations, creating a more efficient, learnable space. For high-dimensional visual data, it reduces redundancy and emphasizes key features for high-quality generation. Current visual tokenization methods rely on a traditional autoencoder framework, where the encoder compresses data into latent representations, and the decoder reconstructs the original input. In this work, we offer a new perspective by proposing denoising as decoding, shifting from single-step reconstruction to iterative refinement. Specifically, we replace the decoder with a diffusion process that iteratively refines noise to recover the original image, guided by the latents provided by the encoder. We evaluate our approach by assessing both reconstruction (rFID) and generation quality (FID), comparing it to state-of-the-art autoencoding approaches. By adopting iterative reconstruction through diffusion, our autoencoder, namely $\epsilon$-VAE, achieves high reconstruction quality, which in turn enhances downstream generation quality by 22% and provides 2.3$\times$ inference speedup. We hope this work offers new insights into integrating iterative generation and autoencoding for improved compression and generation.
Abstract（参考訳）: 生成モデリングにおいて、トークン化は複雑なデータをコンパクトで構造化された表現に単純化し、より効率的で学習可能な空間を作り出す。高次元視覚データの場合、冗長性を低減し、高品質な生成のための重要な特徴を強調する。現在の視覚的トークン化手法は従来のオートエンコーダフレームワークに依存しており、エンコーダはデータを潜在表現に圧縮し、デコーダは元の入力を再構築する。本研究では, 復号化をデコードとして提案し, 単一ステップ再構成から反復的洗練へ移行することで, 新たな視点を提供する。具体的には、デコーダを拡散処理に置き換え、ノイズを反復的に洗練して元のイメージを復元し、エンコーダが提供する潜伏者によって誘導される。再現性 (rFID) と生成品質 (FID) の両方を評価し, 最先端のオートエンコーディング手法と比較した。拡散による反復的再構成により、自動エンコーダである$\epsilon$-VAEは、高い再構成品質を実現し、ダウンストリーム生成品質を22%向上させ、2.3$\times$推論スピードアップを提供する。この作業は、圧縮と生成を改善するための反復生成と自動エンコーディングの統合に関する、新たな洞察を提供することを期待しています。

関連論文リスト

REGEN: Learning Compact Video Embedding with (Re-)Generative Decoder [52.698595889988766]
生成モデルのためのビデオ埋め込み学習について,新しい視点を提示する。入力ビデオの正確な再生を必要とせず、効果的な埋め込みは視覚的に妥当な再構築に焦点を当てるべきである。本稿では,従来のエンコーダ・デコーダ・ビデオ埋め込みをエンコーダ・ジェネレータ・フレームワークに置き換えることを提案する。
論文参考訳（メタデータ） (2025-03-11T17:51:07Z)
Compression-Realized Deep Structural Network for Video Quality Enhancement [78.13020206633524]
本稿では,圧縮ビデオの品質向上の課題に焦点をあてる。既存の手法のほとんどは、圧縮コーデック内での事前処理を最適に活用するための構造設計を欠いている。新しいパラダイムは、より意識的な品質向上プロセスのために緊急に必要である。
論文参考訳（メタデータ） (2024-05-10T09:18:17Z)
HybridFlow: Infusing Continuity into Masked Codebook for Extreme Low-Bitrate Image Compression [51.04820313355164]
HyrbidFlowは、連続的な機能ベースのストリームとコードブックベースのストリームを組み合わせることで、極めて低い条件下で高い知覚品質と高い忠実性を実現する。実験の結果、超低速で複数のデータセットにまたがる優れた性能が示された。
論文参考訳（メタデータ） (2024-04-20T13:19:08Z)
Faster Diffusion: Rethinking the Role of the Encoder for Diffusion Model Inference [95.42299246592756]
本稿では,UNetエンコーダについて検討し,エンコーダの特徴を実証的に分析する。エンコーダの特徴は最小限に変化するが,デコーダの特徴は時間段階によって大きく異なる。我々は、テキスト・ツー・ビデオ、パーソナライズド・ジェネレーション、参照誘導ジェネレーションといった他のタスクに対するアプローチを検証する。
論文参考訳（メタデータ） (2023-12-15T08:46:43Z)
Neural Image Compression Using Masked Sparse Visual Representation [17.229601298529825]
本研究では,Sparse Visual Representation (SVR) に基づくニューラル画像圧縮について検討し,学習されたビジュアルコードブックにまたがる離散潜在空間に画像が埋め込まれた。コードブックをデコーダと共有することにより、エンコーダは効率的でクロスプラットフォームなコードワードインデックスを転送する。本稿では,マスクを潜在機能部分空間に適用して品質のバランスと再構築を行うMasked Adaptive Codebook Learning (M-AdaCode)法を提案する。
論文参考訳（メタデータ） (2023-09-20T21:59:23Z)
ConvNeXt-ChARM: ConvNeXt-based Transform for Efficient Neural Image Compression [18.05997169440533]
ConvNeXt-ChARMは,効率的なConvNeXtベースのトランスフォーメーションコーディングフレームワークである。 ConvNeXt-ChARMは、VVC参照エンコーダ(VTM-18.0)と最先端の学習画像圧縮手法であるSwinT-ChARMに対して、平均5.24%と1.22%と、一貫したBDレート(PSNR)の低下をもたらすことを示した。
論文参考訳（メタデータ） (2023-07-12T11:45:54Z)
Challenging Decoder helps in Masked Auto-Encoder Pre-training for Dense Passage Retrieval [10.905033385938982]
Masked Auto-Encoder (MAE) 事前トレーニングアーキテクチャが最も有望である。本稿では,デコーダの難易度を高めるために,ポイントワイド相互情報に基づく新しいトークン重要マスキング戦略を提案する。
論文参考訳（メタデータ） (2023-05-22T16:27:10Z)
GAN-Based Multi-View Video Coding with Spatio-Temporal EPI Reconstruction [19.919826392704472]
GAN(Generative Adrial Network)の画像生成機能を活用した新しい多視点ビデオ符号化手法を提案する。エンコーダでは,時空間平面画像(EPI)デコーダを構築し,さらに畳み込みネットワークを用いてGANの潜時符号をサイド情報(SI)として抽出する。側面では、SIと隣接する視点を組み合わせて、GANジェネレータを用いて中間ビューを再構築する。
論文参考訳（メタデータ） (2022-05-07T08:52:54Z)
Reducing Redundancy in the Bottleneck Representation of the Autoencoders [98.78384185493624]
オートエンコーダは教師なしニューラルネットワークの一種であり、様々なタスクを解くのに使用できる。本稿では,ボトルネック表現における特徴冗長性を明示的に罰する手法を提案する。我々は,3つの異なるデータセットを用いた次元削減,MNISTデータセットを用いた画像圧縮,ファッションMNISTを用いた画像デノナイズという,さまざまなタスクにまたがってアプローチを検証した。
論文参考訳（メタデータ） (2022-02-09T18:48:02Z)
ReStyle: A Residual-Based StyleGAN Encoder via Iterative Refinement [46.48263482909809]
本稿では,現在のエンコーダに基づくインバージョン法を拡張する新しいインバージョンスキームを提案する。 ReStyleという名前の残差ベースのエンコーダは、現在の最先端のエンコーダベースの手法と比べて、推論時間の無視できるほど精度が向上する。
論文参考訳（メタデータ） (2021-04-06T17:47:13Z)
Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。 Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文参考訳（メタデータ） (2020-06-22T04:04:56Z)
A Generative Approach to Titling and Clustering Wikipedia Sections [12.154365109117025]
我々は、ウィキペディア記事のセクションヘッダ生成という新たなタスクを通じて、情報組織のための様々なデコーダを用いたトランスフォーマーエンコーダを評価する。分析の結果,符号化器の出力に対する注意機構を含むデコーダは,抽出テキストを生成することで高いスコア付け結果が得られることがわかった。注意のないデコーダはセマンティックエンコーディングを容易にし、セクション埋め込みを生成するのに使うことができる。
論文参考訳（メタデータ） (2020-05-22T14:49:07Z)
Rethinking and Improving Natural Language Generation with Layer-Wise Multi-View Decoding [59.48857453699463]
シーケンシャル・ツー・シーケンス学習では、デコーダは注意機構に依存してエンコーダから情報を効率的に抽出する。近年の研究では、異なるエンコーダ層からの表現を多様なレベルの情報に利用することが提案されている。本稿では, 各デコーダ層に対して, グローバルビューとして機能する最後のエンコーダ層からの表現とともに, ソースシーケンスの立体視のために他のエンコーダ層からのデコーダ層からのデコーダ層を補足するレイヤワイド・マルチビューデコーダを提案する。
論文参考訳（メタデータ） (2020-05-16T20:00:39Z)
Generalized Octave Convolutions for Learned Multi-Frequency Image Compression [20.504561050200365]
本稿では,初めて学習されたマルチ周波数画像圧縮とエントロピー符号化手法を提案する。これは最近開発されたオクターブの畳み込みに基づいて、潜水剤を高周波(高分解能)成分に分解する。提案した一般化オクターブ畳み込みは、他のオートエンコーダベースのコンピュータビジョンタスクの性能を向上させることができることを示す。
論文参考訳（メタデータ） (2020-02-24T01:35:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。