論文の概要: Scaling Image Tokenizers with Grouped Spherical Quantization
- arxiv url: http://arxiv.org/abs/2412.02632v1
- Date: Tue, 03 Dec 2024 18:01:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:49:40.706087
- Title: Scaling Image Tokenizers with Grouped Spherical Quantization
- Title(参考訳): 球面量子化による画像トケナイザのスケーリング
- Authors: Jiangtao Wang, Zhen Qin, Yifan Zhang, Vincent Tao Hu, Björn Ommer, Rania Briq, Stefan Kesselheim,
- Abstract要約: Grouped Spherical Quantization (GSQ) は、球面に遅延したコードブックを制約するために用いられる。
GSQは高次元ラテントをコンパクトな低次元空間に再構成できることを示す。
GSQ-GANはリコンストラクションFID(rFID)0.50の16倍のダウンサンプリングを達成する。
- 参考スコア(独自算出の注目度): 29.98909602910703
- License:
- Abstract: Vision tokenizers have gained a lot of attraction due to their scalability and compactness; previous works depend on old-school GAN-based hyperparameters, biased comparisons, and a lack of comprehensive analysis of the scaling behaviours. To tackle those issues, we introduce Grouped Spherical Quantization (GSQ), featuring spherical codebook initialization and lookup regularization to constrain codebook latent to a spherical surface. Our empirical analysis of image tokenizer training strategies demonstrates that GSQ-GAN achieves superior reconstruction quality over state-of-the-art methods with fewer training iterations, providing a solid foundation for scaling studies. Building on this, we systematically examine the scaling behaviours of GSQ, specifically in latent dimensionality, codebook size, and compression ratios, and their impact on model performance. Our findings reveal distinct behaviours at high and low spatial compression levels, underscoring challenges in representing high-dimensional latent spaces. We show that GSQ can restructure high-dimensional latent into compact, low-dimensional spaces, thus enabling efficient scaling with improved quality. As a result, GSQ-GAN achieves a 16x down-sampling with a reconstruction FID (rFID) of 0.50.
- Abstract(参考訳): 従来の作業は、旧来のGANベースのハイパーパラメータ、バイアス付き比較、スケーリング動作の包括的な分析の欠如などに依存していた。
これらの問題に対処するために、球面に潜むコードブックを制約するために、球面コードブックの初期化とルックアップ正規化を特徴とするGrouped Spherical Quantization (GSQ)を導入する。
GSQ-GANはトレーニングイテレーションの少ない最先端の手法よりも優れた再構築品質を達成し、学習のスケーリングの基盤となることを実証した。
これに基づいて,GSQのスケーリング挙動,特に潜時次元,コードブックサイズ,圧縮比について系統的に検討し,それらがモデル性能に与える影響について検討した。
本研究は,高次元潜在空間を表現する上での課題として,高空間圧縮レベルと低空間圧縮レベルの異なる挙動を明らかにした。
GSQは,高次元ラテントをコンパクトな低次元空間に再構成し,高品質で効率的なスケーリングを実現することができることを示す。
その結果、GSQ-GANはリコンストラクションFID(rFID)0.50で16倍のダウンサンプリングを達成する。
関連論文リスト
- Rethinking the Upsampling Layer in Hyperspectral Image Super Resolution [51.98465973507002]
ハイパースペクトル画像のマルチスケールチャネル特性のキャリブレーションにチャネルアテンションを組み込んだ,新しい軽量SHSRネットワーク LKCA-Net を提案する。
我々は、学習可能なアップサンプリング層の低ランク特性が軽量なSHSR手法における重要なボトルネックであることを初めて証明した。
論文 参考訳(メタデータ) (2025-01-30T15:43:34Z) - CityGaussianV2: Efficient and Geometrically Accurate Reconstruction for Large-Scale Scenes [53.107474952492396]
CityGaussianV2は大規模なシーン再構築のための新しいアプローチである。
分解段階の密度化・深さ回帰手法を実装し, ぼやけたアーチファクトを除去し, 収束を加速する。
本手法は, 視覚的品質, 幾何学的精度, ストレージ, トレーニングコストの両立を図っている。
論文 参考訳(メタデータ) (2024-11-01T17:59:31Z) - Language Models as Zero-shot Lossless Gradient Compressors: Towards General Neural Parameter Prior Models [56.00251589760559]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。
本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
実験により、LM-GCは既存の最先端のロスレス圧縮手法を超越していることが示された。
論文 参考訳(メタデータ) (2024-09-26T13:38:33Z) - Mask-Encoded Sparsification: Mitigating Biased Gradients in Communication-Efficient Split Learning [15.78336840511033]
本稿では,スプリットラーニング(SL)シナリオにおいて,高い圧縮率を達成するために設計された新しいフレームワークを提案する。
本研究は, SL内の特徴写像の圧縮が, 収束率に負の影響を及ぼすバイアス勾配をもたらすことを示す。
我々は、時間的複雑さの順序を増大させることなく、スペーシフィケーションエラーを補うために、狭いビット幅の符号化マスクを用いる。
論文 参考訳(メタデータ) (2024-08-25T09:30:34Z) - Generalized Nested Latent Variable Models for Lossy Coding applied to Wind Turbine Scenarios [14.48369551534582]
学習に基づくアプローチは、圧縮率と再構成された画質の妥協を最小化する。
成功したテクニックは、2レベルネストされた潜伏変数モデル内で機能するディープハイパープライアの導入である。
本稿では,マルコフ連鎖構造を持つ一般化Lレベルネスト生成モデルを設計することによって,この概念を拡張した。
論文 参考訳(メタデータ) (2024-06-10T11:00:26Z) - FouriScale: A Frequency Perspective on Training-Free High-Resolution Image Synthesis [48.9652334528436]
本稿では、周波数領域解析の観点から、FouriScaleの革新的な学習不要アプローチを紹介する。
従来の拡散モデルの畳み込み層を,低域演算とともに拡張手法を組み込むことで置き換える。
提案手法は, 生成画像の構造的整合性と忠実度をバランスさせ, 任意のサイズ, 高解像度, 高品質な生成の驚くべき能力を実現する。
論文 参考訳(メタデータ) (2024-03-19T17:59:33Z) - ESSAformer: Efficient Transformer for Hyperspectral Image
Super-resolution [76.7408734079706]
単一ハイパースペクトル像超解像(単一HSI-SR)は、低分解能観測から高分解能ハイパースペクトル像を復元することを目的としている。
本稿では,1つのHSI-SRの繰り返し精製構造を持つESSA注目組込みトランスフォーマネットワークであるESSAformerを提案する。
論文 参考訳(メタデータ) (2023-07-26T07:45:14Z) - Rank-Enhanced Low-Dimensional Convolution Set for Hyperspectral Image
Denoising [50.039949798156826]
本稿では,ハイパースペクトル(HS)画像の難解化問題に対処する。
ランク付き低次元畳み込み集合(Re-ConvSet)を提案する。
次に、Re-ConvSetを広く使われているU-Netアーキテクチャに組み込んで、HS画像復号法を構築する。
論文 参考訳(メタデータ) (2022-07-09T13:35:12Z) - Large-Scale Hyperspectral Image Clustering Using Contrastive Learning [18.473767002905433]
SSCC(Spectral-Spatial Contrastive Clustering)という,スケーラブルなオンラインクラスタリングモデルを提案する。
我々は、スペクトル空間拡張プールから二重コントラスト学習を行うために、クラスタ番号の次元を持つ投影ヘッドからなる対称双対ニューラルネットワークを利用する。
結果として得られたアプローチは、バッチワイズ最適化によってエンドツーエンドでトレーニングされ、大規模なデータで堅牢になり、見当たらないデータに対して優れた一般化能力が得られる。
論文 参考訳(メタデータ) (2021-11-15T17:50:06Z) - Parameterized Hypercomplex Graph Neural Networks for Graph
Classification [1.1852406625172216]
我々は超複雑特徴変換の特性を利用するグラフニューラルネットワークを開発した。
特に、提案したモデルのクラスでは、代数自身を特定する乗法則は、トレーニング中にデータから推測される。
提案するハイパーコンプレックスgnnをいくつかのオープングラフベンチマークデータセット上でテストし,そのモデルが最先端の性能に達することを示す。
論文 参考訳(メタデータ) (2021-03-30T18:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。