論文の概要: GaussianToken: An Effective Image Tokenizer with 2D Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2501.15619v1
- Date: Sun, 26 Jan 2025 17:56:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:59:08.093239
- Title: GaussianToken: An Effective Image Tokenizer with 2D Gaussian Splatting
- Title(参考訳): Gaussian Token: 2D Gaussian Splattingによる効果的なイメージトケナイザ
- Authors: Jiajun Dong, Chengkun Wang, Wenzhao Zheng, Lei Chen, Jiwen Lu, Yansong Tang,
- Abstract要約: 本稿では,2次元ガウススプラッティングを解法とする効果的な画像トークン化手法を提案する。
一般に、我々のフレームワークは、2次元ガウス分布の局所的な影響を離散空間に統合する。
CIFAR, Mini-Net, ImageNet-1K 上での競合的再構成性能は,我々のフレームワークの有効性を示す。
- 参考スコア(独自算出の注目度): 64.84383010238908
- License:
- Abstract: Effective image tokenization is crucial for both multi-modal understanding and generation tasks due to the necessity of the alignment with discrete text data. To this end, existing approaches utilize vector quantization (VQ) to project pixels onto a discrete codebook and reconstruct images from the discrete representation. However, compared with the continuous latent space, the limited discrete codebook space significantly restrict the representational ability of these image tokenizers. In this paper, we propose GaussianToken: An Effective Image Tokenizer with 2D Gaussian Splatting as a solution. We first represent the encoded samples as multiple flexible featured 2D Gaussians characterized by positions, rotation angles, scaling factors, and feature coefficients. We adopt the standard quantization for the Gaussian features and then concatenate the quantization results with the other intrinsic Gaussian parameters before the corresponding splatting operation and the subsequent decoding module. In general, GaussianToken integrates the local influence of 2D Gaussian distribution into the discrete space and thus enhances the representation capability of the image tokenizer. Competitive reconstruction performances on CIFAR, Mini-ImageNet, and ImageNet-1K demonstrate the effectiveness of our framework. Our code is available at: https://github.com/ChrisDong-THU/GaussianToken.
- Abstract(参考訳): 画像の効果的なトークン化は、離散テキストデータとのアライメントが必要なため、マルチモーダル理解と生成の両方に不可欠である。
この目的のために、既存のアプローチではベクトル量子化(VQ)を用いて画素を離散コードブックに投影し、離散表現から画像を再構成する。
しかし、連続ラテント空間と比較して、限られた離散符号ブック空間はこれらの画像トークン化器の表現能力を著しく制限する。
本稿では,ガウス版Token: 2次元ガウス版Tokenizerを解法として提案する。
まず, 符号化されたサンプルを, 位置, 回転角, スケーリング係数, 特徴係数を特徴とする多重フレキシブルな2次元ガウスとして表現する。
我々はガウス的特徴量化の標準量子化を採用し、対応するスプラッティング演算とその後の復号モジュールの前に、他の固有ガウス的パラメータと量子化結果を結合する。
一般に、ガウストーケンは2次元ガウス分布の局所的な影響を離散空間に統合し、画像トークン化器の表現能力を高める。
CIFAR, Mini-ImageNet, ImageNet-1K 上の競合的再構成性能は,我々のフレームワークの有効性を示す。
私たちのコードは、https://github.com/ChrisDong-THU/GaussianToken.comで利用可能です。
関連論文リスト
- Large Images are Gaussians: High-Quality Large Image Representation with Levels of 2D Gaussian Splatting [21.629316414488027]
textbfLarge textbfImages are textbfGaussians (textbfLIG)。
論文 参考訳(メタデータ) (2025-02-13T07:48:56Z) - SmileSplat: Generalizable Gaussian Splats for Unconstrained Sparse Images [91.28365943547703]
SmileSplatという新しい一般化可能なガウス格子法が提案され,様々なシナリオに対して画素整列ガウス波を再構成する。
提案手法は,様々な3次元視覚タスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-11-27T05:52:28Z) - Image Understanding Makes for A Good Tokenizer for Image Generation [62.875788091204626]
我々は,トークンシーケンスにイメージを投影する効果的なトークン化器に依存する,トークンベースのIGフレームワークを提案する。
我々は、強力なIU機能を持つトークン化装置が、さまざまなメトリクス、データセット、タスク、提案ネットワークで優れたIG性能を実現することを示す。
論文 参考訳(メタデータ) (2024-11-07T03:55:23Z) - PixelGaussian: Generalizable 3D Gaussian Reconstruction from Arbitrary Views [116.10577967146762]
PixelGaussianは、任意の視点から一般化可能な3Dガウス再構成を学習するための効率的なフレームワークである。
提案手法は,様々な視点によく一般化した最先端性能を実現する。
論文 参考訳(メタデータ) (2024-10-24T17:59:58Z) - GaussianSR: High Fidelity 2D Gaussian Splatting for Arbitrary-Scale Image Super-Resolution [29.49617080140511]
入射神経表現(INR)は、画像の任意のスケールの超解像(ASSR)の分野を大幅に進歩させた。
既存のINRベースのASSRネットワークは、まずエンコーダを用いて与えられた低解像度画像から特徴を抽出し、次に多層パーセプトロンデコーダを用いて超解像結果をレンダリングする。
2次元ガウススプラッティング(2DGS)によるこの制限を克服する新しいASSR法を提案する。
論文 参考訳(メタデータ) (2024-07-25T13:53:48Z) - Image-GS: Content-Adaptive Image Representation via 2D Gaussians [55.15950594752051]
本稿では,コンテンツ適応型画像表現であるImage-GSを提案する。
異方性2Dガウスアンをベースとして、Image-GSは高いメモリ効率を示し、高速なランダムアクセスをサポートし、自然なレベルのディテールスタックを提供する。
画像-GSの一般的な効率性と忠実性は、最近のニューラルイメージ表現と業界標準テクスチャ圧縮機に対して検証される。
この研究は、機械認識、アセットストリーミング、コンテンツ生成など、適応的な品質とリソース制御を必要とする新しいアプリケーションを開発するための洞察を与えてくれることを願っている。
論文 参考訳(メタデータ) (2024-07-02T00:45:21Z) - Learning Segmented 3D Gaussians via Efficient Feature Unprojection for Zero-shot Neural Scene Segmentation [16.57158278095853]
ゼロショットニューラルシーンセグメンテーションはシーン理解に有効な方法である。
既存のモデル、特に効率的な3Dガウス法は、コンパクトなセグメンテーションの結果を生み出すのに苦労している。
セグメンテーションフィールドとしてFeature UnprojectionとFusionモジュールを提案する。
本モデルでは,ゼロショットセマンティックセグメンテーションタスクのベースラインを超越し,最良ベースラインよりも10%mIoU向上を図っている。
論文 参考訳(メタデータ) (2024-01-11T14:05:01Z) - Compact 3D Gaussian Representation for Radiance Field [14.729871192785696]
本研究では,3次元ガウス点数を削減するための学習可能なマスク戦略を提案する。
また、格子型ニューラルネットワークを用いて、ビュー依存色をコンパクトかつ効果的に表現することを提案する。
我々の研究は、3Dシーン表現のための包括的なフレームワークを提供し、ハイパフォーマンス、高速トレーニング、コンパクト性、リアルタイムレンダリングを実現しています。
論文 参考訳(メタデータ) (2023-11-22T20:31:16Z) - NP-DRAW: A Non-Parametric Structured Latent Variable Modelfor Image
Generation [139.8037697822064]
NP-DRAWと呼ばれる画像生成のための非パラメトリック構造化潜在変数モデルを提案する。
後続のキャンバスをパーツ単位で順次描画し、それをキャンバスからデコードする。
論文 参考訳(メタデータ) (2021-06-25T05:17:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。