論文の概要: GPSToken: Gaussian Parameterized Spatially-adaptive Tokenization for Image Representation and Generation
- arxiv url: http://arxiv.org/abs/2509.01109v2
- Date: Fri, 19 Sep 2025 10:05:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 14:11:07.210274
- Title: GPSToken: Gaussian Parameterized Spatially-adaptive Tokenization for Image Representation and Generation
- Title(参考訳): GPSToken:画像表現と生成のためのガウスパラメータ化空間適応型トークン化
- Authors: Zhengqiang Zhang, Rongyuan Wu, Lingchen Sun, Lei Zhang,
- Abstract要約: GPSTokenは、新しい$textbfG$aussian $textbfP$arameterized $textbfS$patially-adaptive $textbfToken$izationフレームワークである。
GPSTokenは、テクスチャの特徴から空間配置(ガウスパラメータ)を切り離し、効率的な2段階生成を可能にする。
- 参考スコア(独自算出の注目度): 19.94399008500357
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective and efficient tokenization plays an important role in image representation and generation. Conventional methods, constrained by uniform 2D/1D grid tokenization, are inflexible to represent regions with varying shapes and textures and at different locations, limiting their efficacy of feature representation. In this work, we propose $\textbf{GPSToken}$, a novel $\textbf{G}$aussian $\textbf{P}$arameterized $\textbf{S}$patially-adaptive $\textbf{Token}$ization framework, to achieve non-uniform image tokenization by leveraging parametric 2D Gaussians to dynamically model the shape, position, and textures of different image regions. We first employ an entropy-driven algorithm to partition the image into texture-homogeneous regions of variable sizes. Then, we parameterize each region as a 2D Gaussian (mean for position, covariance for shape) coupled with texture features. A specialized transformer is trained to optimize the Gaussian parameters, enabling continuous adaptation of position/shape and content-aware feature extraction. During decoding, Gaussian parameterized tokens are reconstructed into 2D feature maps through a differentiable splatting-based renderer, bridging our adaptive tokenization with standard decoders for end-to-end training. GPSToken disentangles spatial layout (Gaussian parameters) from texture features to enable efficient two-stage generation: structural layout synthesis using lightweight networks, followed by structure-conditioned texture generation. Experiments demonstrate the state-of-the-art performance of GPSToken, which achieves rFID and FID scores of 0.65 and 1.50 on image reconstruction and generation tasks using 128 tokens, respectively. Codes and models of GPSToken can be found at $\href{https://github.com/xtudbxk/GPSToken}{https://github.com/xtudbxk/GPSToken}$.
- Abstract(参考訳): 効果的かつ効率的なトークン化は、画像表現と生成において重要な役割を果たす。
均一な2D/1Dグリッドトークン化によって制約された従来の手法は、様々な形状やテクスチャを持つ領域を表現でき、特徴表現の有効性を制限することができる。
本研究では、パラメトリックな2Dガウスアンを用いて、画像領域の形状、位置、テクスチャを動的にモデル化し、非均一な画像トークン化を実現するために、$\textbf{GPSToken}$, a novel $\textbf{G}$aussian $\textbf{P}$arameterized $\textbf{S}$patially-adaptive $\textbf{Token}$ization frameworkを提案する。
まずエントロピー駆動のアルゴリズムを用いて、画像を可変サイズのテクスチャ均質な領域に分割する。
次に,各領域を2次元ガウス(位置,形状,共分散)としてパラメータ化し,テクスチャ特性と組み合わせた。
特殊変換器はガウスパラメータを最適化し、位置/形状の連続的適応とコンテンツ対応特徴抽出を可能にする。
復号中、ガウスのパラメータ化トークンは2次元特徴写像に再構成され、異なるスプラッティングベースのレンダラーにより、エンドツーエンドトレーニングのための標準デコーダで適応トークン化をブリッジする。
GPSTokenは、テクスチャの特徴から空間的レイアウト(ガウス的パラメータ)を分離し、効率的な2段階生成を可能にする。
128個のトークンを用いた画像再構成および生成タスクにおいて,rFIDとFIDスコアが0.65,FIDスコアが1.50となるGPSTokenの最先端性能を示す実験を行った。
GPSTokenのコードとモデルは、$\href{https://github.com/xtudbxk/GPSToken}{https://github.com/xtudbxk/GPSToken}$で見ることができる。
関連論文リスト
- 2D Gaussian Splatting with Semantic Alignment for Image Inpainting [46.266955851252504]
2次元ガウススプラッティングに基づく最初の画像インペイントフレームワークを提案する。
グローバルなセマンティック一貫性のために、事前訓練されたDINOモデルの特徴を取り入れる。
本手法は,定量的指標と知覚的品質の両面での競合性能を実現する。
論文 参考訳(メタデータ) (2025-09-02T05:12:52Z) - RegGS: Unposed Sparse Views Gaussian Splatting with 3DGS Registration [10.88046882501116]
RegGSは、未提示のビューを再構築するための3Dガウス登録ベースのフレームワークである。
エントロピー規則化シンクホーンアルゴリズムを実装し, 最適輸送法であるMixture 2-Wasserstein $(textMW_2)$ distanceを効率よく解く。
また、$textMW$ 距離、光度整合性、深度幾何学を統合した3DGS登録モジュールを設計する。
論文 参考訳(メタデータ) (2025-07-10T19:56:08Z) - GViT: Representing Images as Gaussians for Visual Recognition [54.46109876668194]
GVITは従来のピクセルやパッチグリッドの入力表現を捨て、学習可能な2Dガウスのコンパクトなセットを優先する分類フレームワークである。
比較的標準的なViTアーキテクチャを用いて、2次元ガウス入力表現とGVITガイダンスを組み合わせることで、従来のパッチベースのViTの性能と密に一致していることを示す。
論文 参考訳(メタデータ) (2025-06-30T05:44:14Z) - Sparse VideoGen2: Accelerate Video Generation with Sparse Attention via Semantic-Aware Permutation [57.56385490252605]
拡散変換器(DiT)はビデオ生成に必須であるが,注意の2次複雑さにより遅延が著しく低下する。
SVG2は,識別精度を最大化し,無駄を最小化する学習自由フレームワークである。
論文 参考訳(メタデータ) (2025-05-24T21:30:29Z) - GaussianToken: An Effective Image Tokenizer with 2D Gaussian Splatting [64.84383010238908]
本稿では,2次元ガウススプラッティングを解法とする効果的な画像トークン化手法を提案する。
一般に、我々のフレームワークは、2次元ガウス分布の局所的な影響を離散空間に統合する。
CIFAR, Mini-Net, ImageNet-1K 上での競合的再構成性能は,我々のフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2025-01-26T17:56:11Z) - RefineStyle: Dynamic Convolution Refinement for StyleGAN [15.230430037135017]
StyleGANでは、畳み込みカーネルは画像間で共有される静的パラメータの両方によって形成される。
$mathcalW+$スペースは画像の反転や編集によく使われる。
本稿では,動的カーネルの効率的な精錬戦略を提案する。
論文 参考訳(メタデータ) (2024-10-08T15:01:30Z) - Image-GS: Content-Adaptive Image Representation via 2D Gaussians [52.598772767324036]
本稿では,2次元ガウス放射率に基づくコンテンツ適応型画像表現であるImage-GSを紹介する。
リアルタイム使用のためにハードウェアフレンドリーな高速アクセスをサポートし、ピクセルをデコードするためには0.3KのMACしか必要としない。
テクスチャ圧縮、セマンティクス対応圧縮、共同画像圧縮と復元など、いくつかのアプリケーションでその汎用性を実証する。
論文 参考訳(メタデータ) (2024-07-02T00:45:21Z) - SG-Former: Self-guided Transformer with Evolving Token Reallocation [89.9363449724261]
本稿では,適応的な微粒化を伴う効果的なグローバル自己注意に向けて,自己誘導変換器と呼ばれる新しいモデルを提案する。
我々は、細かな注意を得られるために、細かな領域により多くのトークンを割り当てる一方で、効率とグローバルな受容場と引き換えに、小さな領域に少ないトークンを割り当てる。
提案したSG-Formerは,最先端技術よりも優れたパフォーマンスを実現している。我々のベースサイズモデルは,ImageNet-1K上のTop-1精度,textbf51.2mAP BBAP on CoCo, textbf52.7mIoU
論文 参考訳(メタデータ) (2023-08-23T15:52:45Z) - Near Perfect GAN Inversion [17.745342857726925]
写真のほぼ完全な再構築を実現するアルゴリズムを導出する。
このアプローチは、複製したい実画像と区別できない合成画像を生成するだけでなく、これらの画像は容易に編集可能であることを示す。
論文 参考訳(メタデータ) (2022-02-23T23:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。