論文の概要: HiTokSR: A Coarse-to-Fine Tokenizer with Hierarchical Codebooks for High-Fidelity Real-World Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2606.01157v1
- Date: Sun, 31 May 2026 11:02:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.287184
- Title: HiTokSR: A Coarse-to-Fine Tokenizer with Hierarchical Codebooks for High-Fidelity Real-World Image Super-Resolution
- Title(参考訳): HiTokSR:高忠実な実世界の超解像のための階層型コードブック付き粗大なTokenizer
- Authors: Mingxi Li,
- Abstract要約: 階層的なトークン予測フレームワークであるHiTokSRを提案する。
この結果から,HiTokSRは品質と再現性の両方において最先端の性能を達成できることが示唆された。
- 参考スコア(独自算出の注目度): 2.4519602914420475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vector-quantized (VQ) generative models have shown promising results in real-world image super-resolution (Real-ISR). However, existing methods typically rely on a monolithic latent space that entangles low-frequency structures with high-frequency textures. This entanglement forces a single codebook to capture a combinatorially complex set of structure-texture pairings, which constrains representational capacity and limits codebook utilization. To address this issue, we present HiTokSR, a hierarchical token prediction framework. Instead of using a single codebook, HiTokSR partitions the latent space along the channel dimension into frequency-aware groups, quantizing each with an independent sub-codebook. This coarse-to-fine design disentangles global structures from fine details, enhancing combinatorial expressiveness while circumventing the optimization instability of high-dimensional nearest-neighbor lookups. To further improve semantic consistency, our generator integrates priors from a vision foundation model via adaptive feature modulation, multi-scale class tokens, and a representation alignment loss. Additionally, we introduce an index-level perturbation strategy during decoder fine-tuning to bridge the train-test discrepancy in discrete token prediction. Extensive experiments on real-world benchmarks demonstrate that HiTokSR achieves state-of-the-art performance in both perceptual quality and reconstruction fidelity.
- Abstract(参考訳): ベクトル量子化(VQ)生成モデルは実世界の超解像(Real-ISR)において有望な結果を示した。
しかし、既存の手法は通常、高周波テクスチャで低周波構造を絡めるモノリシックな潜在空間に依存している。
この絡み合いは、単一のコードブックに複雑な構造とテクスチャのペアリングの集合をキャプチャさせ、表現能力の制限とコードブックの利用を制限する。
この問題に対処するため,階層的なトークン予測フレームワークであるHiTokSRを提案する。
単一のコードブックを使う代わりに、HiTokSRはチャネル次元に沿った潜在空間を周波数対応のグループに分割し、それぞれを独立したサブコードブックで定量化する。
この粗大な設計は、グローバルな構造を細部から切り離し、高次元近傍のルックアップの最適化不安定性を回避しつつ、組合せ表現性を向上する。
セマンティック一貫性をさらに向上するため,我々は,適応的特徴変調,マルチスケールクラストークン,配向アライメント損失などを通じて,視覚基盤モデルからの事前情報を統合した。
さらに、デコーダの微調整中に、離散トークン予測において列車試験の不一致を橋渡しする指標レベルの摂動戦略を導入する。
実世界のベンチマークによる大規模な実験により、HiTokSRは知覚的品質と再現性の両方において最先端のパフォーマンスを達成することが示された。
関連論文リスト
- Unfolding 3D Gaussian Splatting via Iterative Gaussian Synopsis [48.743921535513635]
イテレーティブ・ガウス・シンプシス(Iterative Gaussian Synopsis)は、トップダウンの「展開」スキームを通じてコンパクトでプログレッシブなレンダリングを行うための新しいフレームワークである。
提案手法は3DGSモデルから始まり,適応的かつ学習可能なマスクベースプルーニング機構を用いて,粗いLODを反復的に導出する。
この組み合わせはコンパクトで表現力のある特徴表現を生み出し、冗長性を最小化し、効率よく、レベル固有の適応をサポートするように設計されている。
論文 参考訳(メタデータ) (2026-04-13T16:28:35Z) - SNCE: Geometry-Aware Supervision for Scalable Discrete Image Generation [64.29376407025768]
Neighbor Cross Entropy Minimization (SNCE)は、大容量の離散画像生成装置の最適化課題に対処するために設計された、新しいトレーニング目標である。
我々は,クラス条件のImageNet-256生成,大規模テキスト・画像合成,画像編集タスクについて実験を行った。
その結果,SNCEは標準のクロスエントロピー目標と比較してコンバージェンス速度と全体の生成品質を著しく向上することがわかった。
論文 参考訳(メタデータ) (2026-03-16T11:44:11Z) - StepVAR: Structure-Texture Guided Pruning for Visual Autoregressive Models [98.72926158261937]
本稿では,Visual AutoRegressive モデルのためのトレーニングフリートークン解析フレームワークを提案する。
我々は局所的なテクスチャの詳細を捉えるために軽量なハイパスフィルタを使用し、グローバルな構造情報を保存するために主成分分析(PCA)を活用している。
スパーストークンの下で有効な次世代の予測を維持するために,近接した特徴伝達戦略を導入する。
論文 参考訳(メタデータ) (2026-03-02T11:35:05Z) - VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction [83.50898344094153]
VQRAEは、イメージ理解のための連続的セマンティック機能と、統一トークン化器内での視覚生成のためのトークンを生成する。
デザインは、多モーダル理解、離散トークンの能力を維持するために、無視可能な意味情報を可能にする。
VQRAEは、視覚的理解、生成、再構築のベンチマークで競合性能を示す。
論文 参考訳(メタデータ) (2025-11-28T17:26:34Z) - HiCoGen: Hierarchical Compositional Text-to-Image Generation in Diffusion Models via Reinforcement Learning [66.99487505369254]
HiCoGenは、新しいChain of Synthesisパラダイムに基づいて構築されている。
複雑なプロンプトを最小の意味単位に分解する。
その後、これらのユニットを反復的に合成し、各ステップで生成された画像が次に重要な視覚的コンテキストを提供する。
実験により,提案手法は概念カバレッジと構成精度の両方において,既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-11-25T06:24:25Z) - IAR2: Improving Autoregressive Visual Generation with Semantic-Detail Associated Token Prediction [77.06211178777939]
IAR2は、階層的なセマンティックディーテール合成プロセスを可能にする高度な自己回帰フレームワークである。
我々は、IAR2が自動回帰画像生成のための新しい最先端技術を設定し、ImageNet上で1.50のFIDを達成することを示す。
論文 参考訳(メタデータ) (2025-10-08T12:08:21Z) - Cross-Layer Discrete Concept Discovery for Interpreting Language Models [13.842670153893977]
クロス層VQ-VAEは、ベクトル量子化を使用して層間の表現をマッピングするフレームワークである。
本手法は,量子化中のトップk温度に基づくサンプリングとEMAコードブック更新を一意に組み合わせる。
論文 参考訳(メタデータ) (2025-06-24T22:43:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。