論文の概要: Texture Vector-Quantization and Reconstruction Aware Prediction for Generative Super-Resolution
- arxiv url: http://arxiv.org/abs/2509.23774v2
- Date: Tue, 30 Sep 2025 07:32:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 12:20:10.401121
- Title: Texture Vector-Quantization and Reconstruction Aware Prediction for Generative Super-Resolution
- Title(参考訳): 超解法生成のためのテクスチャベクトル量子化と再構成アウェア予測
- Authors: Qifan Li, Jiale Zou, Jinhua Zhang, Wei Long, Xingyu Zhou, Shuhang Gu,
- Abstract要約: テクスチャベクトル量子化とリコンストラクションアウェア予測戦略を提案する。
提案した生成SRモデル (TVQ&RAP) は,少ない計算コストで実写SR結果を提供できる。
- 参考スコア(独自算出の注目度): 22.77210725203574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vector-quantized based models have recently demonstrated strong potential for visual prior modeling. However, existing VQ-based methods simply encode visual features with nearest codebook items and train index predictor with code-level supervision. Due to the richness of visual signal, VQ encoding often leads to large quantization error. Furthermore, training predictor with code-level supervision can not take the final reconstruction errors into consideration, result in sub-optimal prior modeling accuracy. In this paper we address the above two issues and propose a Texture Vector-Quantization and a Reconstruction Aware Prediction strategy. The texture vector-quantization strategy leverages the task character of super-resolution and only introduce codebook to model the prior of missing textures. While the reconstruction aware prediction strategy makes use of the straight-through estimator to directly train index predictor with image-level supervision. Our proposed generative SR model (TVQ&RAP) is able to deliver photo-realistic SR results with small computational cost.
- Abstract(参考訳): ベクトル量子化されたモデルは最近、視覚的事前モデリングの強力な可能性を示している。
しかし、既存のVQベースの手法は、最も近いコードブックアイテムで視覚的特徴をエンコードし、コードレベルの監督を伴うインデックス予測器を訓練する。
視覚信号の豊かさのため、VQ符号化はしばしば大きな量子化誤差をもたらす。
さらに、コードレベルの監視によるトレーニング予測器は、最終的な再構築誤差を考慮に入れず、その結果、準最適事前モデリング精度が向上する。
本稿では,上記の2つの課題に対処し,テクスチャベクトル量子化と再構成アウェア予測戦略を提案する。
テクスチャベクトル量子化戦略は、超解像のタスク特性を活用し、不足したテクスチャをモデル化するためのコードブックのみを導入する。
再構成対応予測戦略では、ストレートスルー推定器を用いて、画像レベルの監督によるインデックス予測を直接訓練する。
提案した生成SRモデル (TVQ&RAP) は,少ない計算コストで実写SR結果を提供できる。
関連論文リスト
- Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次世代予測は大規模言語モデル(LLM)の訓練の基本原理である
本稿では,マルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。
私たちは、Hard Recall、Hard Recall+Relax、Soft Recallの3つのリコールベースのバリエーションを含む、グラフ中心の報酬セットを設計します。
論文 参考訳(メタデータ) (2025-04-18T10:46:22Z) - Addressing Representation Collapse in Vector Quantized Models with One Linear Layer [13.224989803114632]
ベクトル量子化(VQ)は教師なし学習における連続表現の離散化に不可欠である。
VQは表現の崩壊に悩まされ、コードブックの利用率が低下し、スケーラビリティが制限される。
遅延ベースで学習可能な線形変換層を通じてコードベクトルを再パラメータ化する textbfSimpletextbfVQ を提案する。
論文 参考訳(メタデータ) (2024-11-04T12:40:18Z) - SuperSVG: Superpixel-based Scalable Vector Graphics Synthesis [66.44553285020066]
SuperSVGは、高速かつ高精度な画像ベクトル化を実現するスーパーピクセルベースのベクトル化モデルである。
本稿では,2段階の自己学習フレームワークを提案する。そこでは,粗い段階モデルを用いて主構造を再構築し,細部を充実させるために改良段階モデルを用いる。
再現精度と推定時間の観点から, 最先端手法と比較して, 提案手法の優れた性能を示す実験を行った。
論文 参考訳(メタデータ) (2024-06-14T07:43:23Z) - Does Vector Quantization Fail in Spatio-Temporal Forecasting? Exploring a Differentiable Sparse Soft-Vector Quantization Approach [22.070533429289334]
Sparse Soft- Quantization (SVQ) は、時間的予測を強化するための最初のVQ手法である。
SVQはスパースノイズの低減とバランスを取り、完全性を提供し、スパースレグレッションの強固な基盤を提供する。
このアプローチでは,スパース回帰プロセスの合理化のために,2層データセットと広範なコードブックを用いる。
論文 参考訳(メタデータ) (2023-12-06T10:42:40Z) - Not All Image Regions Matter: Masked Vector Quantization for
Autoregressive Image Generation [78.13793505707952]
既存の自己回帰モデルは、まず画像再構成のための潜伏空間のコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従っている。
そこで本研究では,Masked Quantization VAE (MQ-VAE) Stackモデルを用いた2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T02:15:53Z) - Straightening Out the Straight-Through Estimator: Overcoming
Optimization Challenges in Vector Quantized Networks [35.6604960300194]
本研究は,ベクトル量子化を用いたニューラルネットワークのストレートスルー推定による学習課題について検討する。
トレーニング不安定の主な原因は,モデル埋め込みとコードベクトル分布の相違である。
この問題に寄与する要因として,コードブックの勾配幅やコミットメント損失の非対称性などを挙げる。
論文 参考訳(メタデータ) (2023-05-15T17:56:36Z) - Towards Robust Blind Face Restoration with Codebook Lookup Transformer [94.48731935629066]
ブラインドフェイスの修復は、しばしば補助的なガイダンスを必要とする非常に不適切な問題である。
学習した個別のコードブックを小さなプロキシ空間に配置し,ブラインドフェイスの復元をコード予測タスクとすることを示す。
我々は、低品質顔のグローバルな構成とコンテキストをモデル化するトランスフォーマーベースの予測ネットワーク、CodeFormerを提案する。
論文 参考訳(メタデータ) (2022-06-22T17:58:01Z) - Autoregressive Image Generation using Residual Quantization [40.04085054791994]
本稿では,高解像度画像を生成するための2段階のフレームワークを提案する。
フレームワークはResidual-Quantized VAE (RQ-VAE)とRQ-Transformerで構成されている。
提案手法は,高画質画像を生成するために,従来のARモデルよりもはるかに高速なサンプリング速度を有する。
論文 参考訳(メタデータ) (2022-03-03T11:44:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。