論文の概要: GaussianImage: 1000 FPS Image Representation and Compression by 2D Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2403.08551v3
- Date: Wed, 10 Apr 2024 07:58:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-04-11 16:47:58.805703
- Title: GaussianImage: 1000 FPS Image Representation and Compression by 2D Gaussian Splatting
- Title(参考訳): ガウス画像:1000 FPS画像表現と2次元ガウススプラッティングによる圧縮
- Authors: Xinjie Zhang, Xingtong Ge, Tongda Xu, Dailan He, Yan Wang, Hongwei Qin, Guo Lu, Jing Geng, Jun Zhang,
- Abstract要約: Inlicit Neural representations (INRs) は画像の表現と圧縮で大成功を収めた。
しかし、この要件は、メモリが限られているローエンドデバイスでの使用を妨げることが多い。
本稿では,2次元ガウススプラッティングによる画像表現と圧縮の基盤となるパラダイムであるガウス画像を提案する。
- 参考スコア(独自算出の注目度): 27.33121386538575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Implicit neural representations (INRs) recently achieved great success in image representation and compression, offering high visual quality and fast rendering speeds with 10-1000 FPS, assuming sufficient GPU resources are available. However, this requirement often hinders their use on low-end devices with limited memory. In response, we propose a groundbreaking paradigm of image representation and compression by 2D Gaussian Splatting, named GaussianImage. We first introduce 2D Gaussian to represent the image, where each Gaussian has 8 parameters including position, covariance and color. Subsequently, we unveil a novel rendering algorithm based on accumulated summation. Remarkably, our method with a minimum of 3$\times$ lower GPU memory usage and 5$\times$ faster fitting time not only rivals INRs (e.g., WIRE, I-NGP) in representation performance, but also delivers a faster rendering speed of 1500-2000 FPS regardless of parameter size. Furthermore, we integrate existing vector quantization technique to build an image codec. Experimental results demonstrate that our codec attains rate-distortion performance comparable to compression-based INRs such as COIN and COIN++, while facilitating decoding speeds of approximately 1000 FPS. Additionally, preliminary proof of concept shows that our codec surpasses COIN and COIN++ in performance when using partial bits-back coding. Code will be available at https://github.com/Xinjie-Q/GaussianImage.
- Abstract(参考訳): Inlicit Neural representations (INR)は画像表現と圧縮で大成功を収め、十分なGPUリソースが利用できると仮定して、10-1000 FPSで高画質で高速なレンダリング速度を提供する。
しかし、この要件は、メモリが限られているローエンドデバイスでの使用を妨げることが多い。
そこで本研究では,ガウス画像と2次元ガウス画像による画像表現と圧縮の画期的なパラダイムを提案する。
まず、画像を表すために2D Gaussianを導入し、各 Gaussian は位置、共分散、色を含む8つのパラメータを持つ。
その後、累積和に基づく新しいレンダリングアルゴリズムを公表する。
注目すべきは、最低3$\times$GPUメモリ使用量と5$\times$高速適合時間を持つ手法は、表現性能においてINRs(例えば、WIRE、I-NGP)と競合するだけでなく、パラメータサイズに関係なく1500-2000 FPSの高速レンダリング速度を提供する。
さらに,既存のベクトル量子化手法を統合して画像コーデックを構築する。
実験の結果,コーデックはCOINやCOIN++などの圧縮ベースのINRに匹敵する速度歪み性能を示し,約1000FPSの復号速度を実現している。
さらに、予備的な概念実証では、コーデックが部分ビットバック符号を使用する場合、COINとCOIN++を上回る性能を示している。
コードはhttps://github.com/Xinjie-Q/GaussianImageで入手できる。
関連論文リスト
- Compressing 3D Gaussian Splatting by Noise-Substituted Vector Quantization [14.71160140310766]
3D Gaussian Splatting (3DGS) は3次元再構成において顕著な効果を示し, 実時間放射場レンダリングによる高品質な結果を得た。
単一のシーンを再構築するには、通常、59の浮動小数点パラメータで表現された数百万のガウススプラットが必要で、約1GBのメモリが生成される。
具体的には、ノイズ置換ベクトル量子化手法を用いて、コードブックとモデルの特徴を共同でトレーニングし、降下勾配最適化とパラメータ離散化の整合性を確保する。
論文 参考訳(メタデータ) (2025-04-03T22:19:34Z) - 1000+ FPS 4D Gaussian Splatting for Dynamic Scene Rendering [60.676919690136096]
最新のシーンGPU上で1000FPS以上で動作する textbf4DGS-1K を提案する。
Q1では,短寿命ガウスを効果的に除去する新しいプルーニング基準である空間時間変動スコアを導入する。
Q2では、連続するフレーム間でアクティブなガウスのマスクを格納し、レンダリングにおける冗長な計算を著しく削減する。
論文 参考訳(メタデータ) (2025-03-20T17:59:44Z) - GaussianVideo: Efficient Video Representation and Compression by Gaussian Splatting [10.568851068989973]
Implicit Neural Representation for Videos (NeRV) はビデオ表現と圧縮のための新しいパラダイムを導入した。
データハンドリングを効率的に処理するための2次元ガウススプラッティングに基づく新しいビデオ表現と手法を提案する。
メモリ使用量を最大78.4%削減し,ビデオ処理を大幅に高速化し,5.5倍高速トレーニング,12.5倍高速デコードを実現した。
論文 参考訳(メタデータ) (2025-03-06T11:31:08Z) - GaussianToken: An Effective Image Tokenizer with 2D Gaussian Splatting [64.84383010238908]
本稿では,2次元ガウススプラッティングを解法とする効果的な画像トークン化手法を提案する。
一般に、我々のフレームワークは、2次元ガウス分布の局所的な影響を離散空間に統合する。
CIFAR, Mini-Net, ImageNet-1K 上での競合的再構成性能は,我々のフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2025-01-26T17:56:11Z) - REDUCIO! Generating 1024$\times$1024 Video within 16 Seconds using Extremely Compressed Motion Latents [110.41795676048835]
大規模アプリケーションにとって重要な障害のひとつは、高価なトレーニングと推論コストである。
本稿では,ビデオには画像よりもはるかに冗長な情報が含まれており,非常に少ない動きの潜伏者によってエンコード可能であることを論じる。
我々は、合計3.2Kのトレーニング時間でReduceio-DiTをトレーニングし、1つのA100 GPUで15.5秒以内に16フレームの1024*1024ビデオクリップを生成する。
論文 参考訳(メタデータ) (2024-11-20T18:59:52Z) - Compact 3D Gaussian Splatting for Static and Dynamic Radiance Fields [13.729716867839509]
ハイパフォーマンスを維持しつつガウスの数を著しく削減する学習可能なマスク戦略を提案する。
さらに、格子型ニューラルネットワークを用いて、ビュー依存色をコンパクトかつ効果的に表現することを提案する。
我々の研究は、3Dシーン表現のための包括的なフレームワークを提供し、ハイパフォーマンス、高速トレーニング、コンパクト性、リアルタイムレンダリングを実現しています。
論文 参考訳(メタデータ) (2024-08-07T14:56:34Z) - Image-GS: Content-Adaptive Image Representation via 2D Gaussians [55.15950594752051]
本稿では,コンテンツ適応型画像表現であるImage-GSを提案する。
異方性2Dガウスアンをベースとして、Image-GSは高いメモリ効率を示し、高速なランダムアクセスをサポートし、自然なレベルのディテールスタックを提供する。
画像-GSの一般的な効率性と忠実性は、最近のニューラルイメージ表現と業界標準テクスチャ圧縮機に対して検証される。
この研究は、機械認識、アセットストリーミング、コンテンツ生成など、適応的な品質とリソース制御を必要とする新しいアプリケーションを開発するための洞察を与えてくれることを願っている。
論文 参考訳(メタデータ) (2024-07-02T00:45:21Z) - Splatter Image: Ultra-Fast Single-View 3D Reconstruction [67.96212093828179]
Splatter ImageはGaussian Splattingをベースにしており、複数の画像から3Dシーンを高速かつ高品質に再現することができる。
テスト時に38FPSでフィードフォワードで再構成を行うニューラルネットワークを学習する。
いくつかの総合、実、マルチカテゴリ、大規模ベンチマークデータセットにおいて、トレーニング中にPSNR、LPIPS、その他のメトリクスでより良い結果を得る。
論文 参考訳(メタデータ) (2023-12-20T16:14:58Z) - LightGaussian: Unbounded 3D Gaussian Compression with 15x Reduction and 200+ FPS [55.85673901231235]
光ガウシアン(LightGaussian)は、3次元ガウシアンをよりコンパクトなフォーマットに変換する方法である。
ネットワーク・プルーニングにインスパイアされたLightGaussianは、ガウシアンをシーン再構築において最小限のグローバルな重要性で特定した。
LightGaussian は 3D-GS フレームワークで FPS を 144 から 237 に上げながら,平均 15 倍の圧縮率を達成する。
論文 参考訳(メタデータ) (2023-11-28T21:39:20Z) - Compact 3D Gaussian Representation for Radiance Field [14.729871192785696]
本研究では,3次元ガウス点数を削減するための学習可能なマスク戦略を提案する。
また、格子型ニューラルネットワークを用いて、ビュー依存色をコンパクトかつ効果的に表現することを提案する。
我々の研究は、3Dシーン表現のための包括的なフレームワークを提供し、ハイパフォーマンス、高速トレーニング、コンパクト性、リアルタイムレンダリングを実現しています。
論文 参考訳(メタデータ) (2023-11-22T20:31:16Z) - Compressed 3D Gaussian Splatting for Accelerated Novel View Synthesis [0.552480439325792]
スパース画像集合からの新規なビュー合成のために,3次元ガウススプラット表現を最適化した高忠実度シーン再構成を導入した。
本稿では,感性を考慮したベクトルクラスタリングと量子化学習を併用した3次元ガウススプラット表現を用いて,方向色とガウスパラメータを圧縮する手法を提案する。
論文 参考訳(メタデータ) (2023-11-17T14:40:43Z) - CoordFill: Efficient High-Resolution Image Inpainting via Parameterized
Coordinate Querying [52.91778151771145]
本稿では,近年の連続的暗黙表現の発達により,その限界を初めて破ろうとする。
実験の結果,提案手法はGTX 2080 Ti GPUを用いて2048$times$2048の画像をリアルタイムに処理できることがわかった。
論文 参考訳(メタデータ) (2023-03-15T11:13:51Z) - PILC: Practical Image Lossless Compression with an End-to-end GPU
Oriented Neural Framework [88.18310777246735]
本稿では,1台のNVIDIA Tesla V100 GPUを用いて,圧縮と圧縮の両面で200MB/sを実現するエンドツーエンド画像圧縮フレームワークを提案する。
実験により、我々のフレームワークは、複数のデータセットで30%のマージンで、PNGよりも圧縮が優れていることが示された。
論文 参考訳(メタデータ) (2022-06-10T03:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。