論文の概要: Restructuring Vector Quantization with the Rotation Trick
- arxiv url: http://arxiv.org/abs/2410.06424v1
- Date: Tue, 8 Oct 2024 23:39:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 05:49:26.006974
- Title: Restructuring Vector Quantization with the Rotation Trick
- Title(参考訳): 回転トリックによるベクトル量子化の再構成
- Authors: Christopher Fifty, Ronald G. Junkins, Dennis Duan, Aniketh Iger, Jerry W. Liu, Ehsan Amid, Sebastian Thrun, Christopher Ré,
- Abstract要約: ベクトル量子化変分オートエンコーダ(VQ-VAE)は、連続的な入力を離散潜在空間に圧縮し、最小限の歪みで再構成するように設計されている。
ベクトル量子化は微分不可能であるため、エンコーダへの勾配はベクトル量子化層を通り抜けるのではなく、直線的な近似で流れる。
本稿では,VQ-VAEのベクトル量子化層を通じて勾配を伝搬する方法を提案する。
- 参考スコア(独自算出の注目度): 36.03697966463205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vector Quantized Variational AutoEncoders (VQ-VAEs) are designed to compress a continuous input to a discrete latent space and reconstruct it with minimal distortion. They operate by maintaining a set of vectors -- often referred to as the codebook -- and quantizing each encoder output to the nearest vector in the codebook. However, as vector quantization is non-differentiable, the gradient to the encoder flows around the vector quantization layer rather than through it in a straight-through approximation. This approximation may be undesirable as all information from the vector quantization operation is lost. In this work, we propose a way to propagate gradients through the vector quantization layer of VQ-VAEs. We smoothly transform each encoder output into its corresponding codebook vector via a rotation and rescaling linear transformation that is treated as a constant during backpropagation. As a result, the relative magnitude and angle between encoder output and codebook vector becomes encoded into the gradient as it propagates through the vector quantization layer and back to the encoder. Across 11 different VQ-VAE training paradigms, we find this restructuring improves reconstruction metrics, codebook utilization, and quantization error. Our code is available at https://github.com/cfifty/rotation_trick.
- Abstract(参考訳): ベクトル量子化変分オートエンコーダ(VQ-VAE)は、連続的な入力を離散潜在空間に圧縮し、最小限の歪みで再構成するように設計されている。
それらは、コードブックと呼ばれる一連のベクトルを維持し、各エンコーダ出力をコードブックの最も近いベクターに量子化する。
しかし、ベクトル量子化は微分不可能であるため、エンコーダへの勾配はベクトル量子化層を通り抜けるのではなく、直線的な近似で流れる。
この近似はベクトル量子化演算から得られる全ての情報が失われるため望ましくない。
本稿では,VQ-VAEのベクトル量子化層を通じて勾配を伝播する手法を提案する。
我々は,各エンコーダの出力を,バックプロパゲーション中に定数として扱われる線形変換を回転・再スケーリングすることで,対応するコードブックベクトルにスムーズに変換する。
その結果、エンコーダ出力とコードブックベクトルの相対等級と角度は、ベクトル量子化層を介して伝播し、エンコーダに戻るにつれて勾配に符号化される。
11種類のVQ-VAEトレーニングパラダイムで、この再構成により、再構成メトリクス、コードブック利用、量子化エラーが改善される。
私たちのコードはhttps://github.com/cfifty/rotation_trick.comから入手可能です。
関連論文リスト
- Graph Transformers Dream of Electric Flow [72.06286909236827]
グラフデータに適用された線形変換器は、正準問題を解くアルゴリズムを実装可能であることを示す。
そこで我々は,これらのグラフアルゴリズムをそれぞれ実装するための明示的な重み設定を提案し,基礎となるアルゴリズムの誤差によって構築したトランスフォーマーの誤差を限定する。
論文 参考訳(メタデータ) (2024-10-22T05:11:45Z) - VQ4DiT: Efficient Post-Training Vector Quantization for Diffusion Transformers [7.369445527610879]
Diffusion Transformers Models (DiTs) は、ネットワークアーキテクチャを従来のUNetsからTransformersに移行し、画像生成において例外的な能力を示した。
ベクトル量子化(VQ)は、モデルの重みをコードブックと代入に分解し、極端な重み量子化とメモリ使用量の大幅な削減を可能にする。
実験により、VQ4DiTはモデルサイズと性能トレードオフの新たな最先端を確立でき、重みを2ビット精度に定量化でき、画像生成品質は許容できる。
論文 参考訳(メタデータ) (2024-08-30T09:15:54Z) - Segmentation-guided Layer-wise Image Vectorization with Gradient Fills [6.037332707968933]
そこで本稿では,画像を勾配を埋め込んだ簡潔なベクトルグラフに変換するためのセグメンテーション誘導ベクトル化フレームワークを提案する。
組込み勾配認識セグメンテーションの指導により, 段階的に勾配を埋め込んだB'ezierパスを出力に付加する。
論文 参考訳(メタデータ) (2024-08-28T12:08:25Z) - Vector Quantization for Deep-Learning-Based CSI Feedback in Massive MIMO
Systems [7.934232975873179]
本稿では,大規模マルチインプットマルチアウトプット(MIMO)システムのための,有限レート深層学習(DL)に基づくチャネル状態情報(CSI)フィードバック手法を提案する。
提案手法は,ベクトル量子化変分オートエンコーダ(VQ-VAE)フレームワークに基づく潜在ベクトルの有限ビット表現を提供する。
論文 参考訳(メタデータ) (2024-03-12T06:28:41Z) - Approaching Rate-Distortion Limits in Neural Compression with Lattice
Transform Coding [33.377272636443344]
ニューラル圧縮設計では、ソースを潜在ベクトルに変換し、それを整数に丸め、エントロピーを符号化する。
我々は、i.d.配列に対して非常に最適であり、実際に、元のソースシーケンスのスカラー量子化を常に回復することを示した。
遅延空間におけるスカラー量子化の代わりに格子量子化を用いることにより、格子変換符号化(LTC)が様々な次元で最適なベクトル量子化を回復できることを実証する。
論文 参考訳(メタデータ) (2024-03-12T05:09:25Z) - Soft Convex Quantization: Revisiting Vector Quantization with Convex
Optimization [40.1651740183975]
ベクトル量子化(VQ)の直接代用として,ソフト凸量子化(SCQ)を提案する。
SCQは微分凸最適化(DCO)層のように機能する。
CIFAR-10, GTSRB, LSUNデータセット上での有効性を示す。
論文 参考訳(メタデータ) (2023-10-04T17:45:14Z) - Online Clustered Codebook [100.1650001618827]
オンラインコードブック学習のための簡単な代替手法であるClustering VQ-VAE(CVQ-VAE)を提案する。
弊社のアプローチでは、コード化された機能をアンカーとして選択し、デッドのコードベクタを更新すると同時に、元の損失によって生存しているコードブックを最適化する。
私たちのCVQ-VAEは、ほんの数行のコードで既存のモデルに簡単に統合できます。
論文 参考訳(メタデータ) (2023-07-27T18:31:04Z) - Robust Differentiable SVD [117.35644933471401]
対称行列の固有分解は多くのコンピュータビジョンアルゴリズムの中心にある。
不安定性は互いに近い固有値の存在によって生じる。
SVD勾配のテイラー展開は、反復過程に依存することなくPIを用いて得られる勾配と理論的に等価であることを示す。
論文 参考訳(メタデータ) (2021-04-08T15:04:15Z) - Learned transform compression with optimized entropy encoding [72.20409648915398]
学習した変換圧縮の問題を検討し、離散符号上の変換と確率分布の両方を学習する。
勾配のバックプロパゲーションを可能にするために量子化演算をソフト緩和し, 潜在符号のベクトル量子化を(スカラーではなく)採用した。
論文 参考訳(メタデータ) (2021-04-07T17:58:01Z) - Deriving Differential Target Propagation from Iterating Approximate
Inverses [91.3755431537592]
本稿では,各層が学習した逆数に依存するターゲット伝搬の特定の形態が,ガウス-ニュートン勾配に基づく近似最適化に対応する更新規則を導出することを示す。
そこで我々は,各層における局所的自動エンコーダに基づく反復計算について検討し,より正確な目標伝搬のインバージョンを実現する。
論文 参考訳(メタデータ) (2020-07-29T22:34:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。