論文の概要: GIFStream: 4D Gaussian-based Immersive Video with Feature Stream
- arxiv url: http://arxiv.org/abs/2505.07539v1
- Date: Mon, 12 May 2025 13:24:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.395411
- Title: GIFStream: 4D Gaussian-based Immersive Video with Feature Stream
- Title(参考訳): GIFStream:4DガウスのImmersive Videoとフィーチャーストリーム
- Authors: Hao Li, Sicheng Li, Xiang Gao, Abudouaihati Batuer, Lu Yu, Yiyi Liao,
- Abstract要約: Immersiveビデオは、6Dofのない視聴体験を提供しており、将来のビデオ技術において重要な役割を果たす可能性がある。
近年, 4D Gaussian Splatting は高いレンダリング効率と品質のため, 没入型ビデオの効果的な手法として注目されている。
GIFStreamは標準空間と時間依存特徴ストリームで拡張された変形場を用いた新しい4次元ガウス表現である。
- 参考スコア(独自算出の注目度): 24.416126420899086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Immersive video offers a 6-Dof-free viewing experience, potentially playing a key role in future video technology. Recently, 4D Gaussian Splatting has gained attention as an effective approach for immersive video due to its high rendering efficiency and quality, though maintaining quality with manageable storage remains challenging. To address this, we introduce GIFStream, a novel 4D Gaussian representation using a canonical space and a deformation field enhanced with time-dependent feature streams. These feature streams enable complex motion modeling and allow efficient compression by leveraging temporal correspondence and motion-aware pruning. Additionally, we incorporate both temporal and spatial compression networks for end-to-end compression. Experimental results show that GIFStream delivers high-quality immersive video at 30 Mbps, with real-time rendering and fast decoding on an RTX 4090. Project page: https://xdimlab.github.io/GIFStream
- Abstract(参考訳): Immersiveビデオは、6Dofのない視聴体験を提供しており、将来のビデオ技術において重要な役割を果たす可能性がある。
近年, 4D Gaussian Splatting は高いレンダリング効率と品質のため没入型ビデオの効果的な手法として注目されているが, 管理可能なストレージによる品質維持は依然として困難である。
そこで本研究では,標準空間を用いた新しい4次元ガウス表現であるGIFStreamと,時間に依存した特徴ストリームによって拡張された変形場を紹介する。
これらの特徴ストリームは、複雑なモーションモデリングを可能にし、時間的対応と動き認識プルーニングを活用することで、効率的な圧縮を可能にする。
さらに、時間的・空間的圧縮ネットワークをエンドツーエンド圧縮に組み込む。
実験の結果,RTX 4090のリアルタイムレンダリングと高速デコードにより,GIFStreamは30Mbpsで高品質な没入型ビデオを提供することがわかった。
プロジェクトページ: https://xdimlab.github.io/GIFStream
関連論文リスト
- GSVR: 2D Gaussian-based Video Representation for 800+ FPS with Hybrid Deformation Field [7.977026024810772]
ビデオの暗黙の神経表現は、新しくて有望なビデオ表現として認識されている。
本稿では,新しい2次元ガウス映像表現であるGSVRを提案し,Bunny上で800FPS以上,35PSNR以上を達成している。
本手法は既存の手法よりもはるかに高速に収束し,他の手法に比べて10倍高速に復号できる。
論文 参考訳(メタデータ) (2025-07-08T02:13:12Z) - GaussianVideo: Efficient Video Representation and Compression by Gaussian Splatting [10.568851068989973]
Implicit Neural Representation for Videos (NeRV) はビデオ表現と圧縮のための新しいパラダイムを導入した。
データハンドリングを効率的に処理するための2次元ガウススプラッティングに基づく新しいビデオ表現と手法を提案する。
メモリ使用量を最大78.4%削減し,ビデオ処理を大幅に高速化し,5.5倍高速トレーニング,12.5倍高速デコードを実現した。
論文 参考訳(メタデータ) (2025-03-06T11:31:08Z) - Large Motion Video Autoencoding with Cross-modal Video VAE [52.13379965800485]
ビデオ可変オートエンコーダ(VAE)は、ビデオ冗長性を低減し、効率的なビデオ生成を容易にするために不可欠である。
既存のビデオVAEは時間圧縮に対処し始めているが、しばしば再建性能が不十分である。
本稿では,高忠実度ビデオエンコーディングが可能な,新規で強力なビデオオートエンコーダを提案する。
論文 参考訳(メタデータ) (2024-12-23T18:58:24Z) - REDUCIO! Generating 1024$\ imes$1024 Video within 16 Seconds using Extremely Compressed Motion Latents [110.41795676048835]
大規模アプリケーションにとって重要な障害のひとつは、高価なトレーニングと推論コストである。
本稿では,ビデオには画像よりもはるかに冗長な情報が含まれており,非常に少ない動きの潜伏者によってエンコード可能であることを論じる。
我々は、合計3.2Kのトレーニング時間でReduceio-DiTをトレーニングし、1つのA100 GPUで15.5秒以内に16フレームの1024*1024ビデオクリップを生成する。
論文 参考訳(メタデータ) (2024-11-20T18:59:52Z) - V^3: Viewing Volumetric Videos on Mobiles via Streamable 2D Dynamic Gaussians [53.614560799043545]
V3 (Viewing Volumetric Videos) は,ダイナミックガウスのストリーミングによる高品質なモバイルレンダリングを実現する,新たなアプローチである。
私たちの重要なイノベーションは、ダイナミックな3DGSを2Dビデオと見なすことで、ハードウェアビデオコーデックの使用を促進することです。
モバイル端末でダイナミックなガウシアンをストリームする最初の手段として、私たちのコンパニオンプレーヤーは、前例のないボリュームビデオ体験をユーザに提供します。
論文 参考訳(メタデータ) (2024-09-20T16:54:27Z) - 4K4D: Real-Time 4D View Synthesis at 4K Resolution [86.6582179227016]
本稿では、4K解像度で動的3Dシーンを高忠実かつリアルタイムに見ることを目的とする。
ハードウェア化をサポートし,前例のないレンダリング速度を実現する4Dポイントクラウド表現を提案する。
私たちの表現は、1080p解像度のDNAレンダリングデータセットで400 FPS、4090 GPUで4K解像度のENeRF-Outdoorデータセットで80 FPSでレンダリングできます。
論文 参考訳(メタデータ) (2023-10-17T17:57:38Z) - MagicVideo: Efficient Video Generation With Latent Diffusion Models [76.95903791630624]
我々はMagicVideoと呼ばれる遅延拡散モデルに基づく効率的なテキスト・ビデオ生成フレームワークを提案する。
低次元空間における映像の配布をモデル化する新しい3次元U-Netの設計により、MagicVideoは1枚のGPUカード上で256×256の空間解像度でビデオクリップを合成できる。
我々は広範な実験を行い、MagicVideoが現実的または虚構的なコンテンツで高品質なビデオクリップを作成できることを実証した。
論文 参考訳(メタデータ) (2022-11-20T16:40:31Z) - Exploring Long- and Short-Range Temporal Information for Learned Video
Compression [54.91301930491466]
圧縮性能を高めるために,映像コンテンツの特徴を活かし,時間的情報を探究することに注力する。
本稿では,画像群(GOP)内で画像の推測中に連続的に更新できる時間前処理を提案する。
この場合、時間的事前は、現在のGOP内のすべてのデコードされた画像の貴重な時間的情報を含む。
本稿では,マルチスケール補償を実現する階層構造を設計する。
論文 参考訳(メタデータ) (2022-08-07T15:57:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。