論文の概要: Neural Video Compression using 2D Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2505.09324v1
- Date: Wed, 14 May 2025 12:23:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.448088
- Title: Neural Video Compression using 2D Gaussian Splatting
- Title(参考訳): 2次元ガウススプラッティングによるニューラルビデオ圧縮
- Authors: Lakshya Gupta, Imran N. Junejo,
- Abstract要約: 本稿では,2次元ガウススプラッティングを利用した関心領域に基づくニューラルビデオ圧縮モデルを提案する。
本研究では,従来のガウススプラッティング画像の符号化時間を88%高速化するビデオパイプラインを設計した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The computer vision and image processing research community has been involved in standardizing video data communications for the past many decades, leading to standards such as AVC, HEVC, VVC, AV1, AV2, etc. However, recent groundbreaking works have focused on employing deep learning-based techniques to replace the traditional video codec pipeline to a greater affect. Neural video codecs (NVC) create an end-to-end ML-based solution that does not rely on any handcrafted features (motion or edge-based) and have the ability to learn content-aware compression strategies, offering better adaptability and higher compression efficiency than traditional methods. This holds a great potential not only for hardware design, but also for various video streaming platforms and applications, especially video conferencing applications such as MS-Teams or Zoom that have found extensive usage in classrooms and workplaces. However, their high computational demands currently limit their use in real-time applications like video conferencing. To address this, we propose a region-of-interest (ROI) based neural video compression model that leverages 2D Gaussian Splatting. Unlike traditional codecs, 2D Gaussian Splatting is capable of real-time decoding and can be optimized using fewer data points, requiring only thousands of Gaussians for decent quality outputs as opposed to millions in 3D scenes. In this work, we designed a video pipeline that speeds up the encoding time of the previous Gaussian splatting-based image codec by 88% by using a content-aware initialization strategy paired with a novel Gaussian inter-frame redundancy-reduction mechanism, enabling Gaussian splatting to be used for a video-codec solution, the first of its kind solution in this neural video codec space.
- Abstract(参考訳): コンピュータビジョンと画像処理研究コミュニティは、過去数十年にわたって、ビデオデータ通信の標準化に関わってきた。
しかし、近年の画期的な作業は、従来のビデオコーデックパイプラインを置き換えるために、ディープラーニングベースのテクニックの採用に重点を置いている。
ニューラルビデオコーデック(NVC)は、手作りの機能(モーションやエッジベース)に依存しないエンドツーエンドのMLベースのソリューションを作成し、コンテンツ認識圧縮戦略を学習する能力を持ち、従来の方法よりも適応性と高い圧縮効率を提供する。
これはハードウェア設計だけでなく、様々なビデオストリーミングプラットフォームやアプリケーション、特に教室や職場で広く使われているMS-TeamsやZoomのようなビデオ会議アプリケーションにも大きな可能性を秘めている。
しかし、現在彼らの高い計算要求は、ビデオ会議のようなリアルタイムアプリケーションでの使用を制限する。
そこで本研究では,2次元ガウススプラッティングを利用した関心領域(ROI)に基づくニューラルビデオ圧縮モデルを提案する。
従来のコーデックとは異なり、2D Gaussian Splattingはリアルタイムデコードが可能で、少ないデータポイントで最適化できる。
本研究では,従来のガウススプラッティング画像コーデックの符号化時間を88%高速化するビデオパイプラインを,新しいガウスフレーム間冗長化低減機構と組み合わせたコンテンツ認識初期化戦略を用いて設計し,ガウススプラッティングをビデオコーデックソリューションとして利用できるようにする。
関連論文リスト
- GaussianVideo: Efficient Video Representation and Compression by Gaussian Splatting [10.568851068989973]
Implicit Neural Representation for Videos (NeRV) はビデオ表現と圧縮のための新しいパラダイムを導入した。
データハンドリングを効率的に処理するための2次元ガウススプラッティングに基づく新しいビデオ表現と手法を提案する。
メモリ使用量を最大78.4%削減し,ビデオ処理を大幅に高速化し,5.5倍高速トレーニング,12.5倍高速デコードを実現した。
論文 参考訳(メタデータ) (2025-03-06T11:31:08Z) - GSVC: Efficient Video Representation and Compression Through 2D Gaussian Splatting [3.479384894190067]
本稿では,映像フレームを効果的に表現・圧縮できる2次元ガウススプレートの集合を学習するためのGSVCを提案する。
実験の結果,GSVCは最先端のビデオコーデックに匹敵する,良好な速度歪みトレードオフを実現することがわかった。
論文 参考訳(メタデータ) (2025-01-21T11:30:51Z) - V^3: Viewing Volumetric Videos on Mobiles via Streamable 2D Dynamic Gaussians [53.614560799043545]
V3 (Viewing Volumetric Videos) は,ダイナミックガウスのストリーミングによる高品質なモバイルレンダリングを実現する,新たなアプローチである。
私たちの重要なイノベーションは、ダイナミックな3DGSを2Dビデオと見なすことで、ハードウェアビデオコーデックの使用を促進することです。
モバイル端末でダイナミックなガウシアンをストリームする最初の手段として、私たちのコンパニオンプレーヤーは、前例のないボリュームビデオ体験をユーザに提供します。
論文 参考訳(メタデータ) (2024-09-20T16:54:27Z) - One-Click Upgrade from 2D to 3D: Sandwiched RGB-D Video Compression for Stereoscopic Teleconferencing [13.74209129258984]
本稿では, ステレオRGB-Dビデオ圧縮をサポートするために, ニューラルプレプロセッサとポストプロセッサのペアでラップすることで, 2次元映像をアップグレードする手法を提案する。
我々は、合成された4D人物データセットでニューラルプリプロセッサとポストプロセッサをトレーニングし、合成されたステレオRGB-Dビデオと実際のキャプチャーされたステレオRGB-Dビデオの両方で評価する。
提案手法は従来のビデオ符号化方式やMV-HEVCと比べ約30%のビットレートを、新しい視点から同一のレンダリング品質で保存する。
論文 参考訳(メタデータ) (2024-04-15T17:56:05Z) - Towards Scalable Neural Representation for Diverse Videos [68.73612099741956]
Inlicit Neural representations (INR)は、3Dシーンや画像の表現において注目を集めている。
既存のINRベースの手法は、冗長な視覚コンテンツを持つ短いビデオの符号化に限られている。
本稿では,多種多様な視覚コンテンツを持つ長編・多作ビデオの符号化のためのニューラル表現の開発に焦点をあてる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - Compressed Vision for Efficient Video Understanding [83.97689018324732]
本稿では,2時間ビデオの処理が可能なハードウェアを用いて,時間長動画の研究を可能にするフレームワークを提案する。
私たちは、JPEGなどの標準的なビデオ圧縮をニューラル圧縮に置き換え、圧縮されたビデオを通常のビデオネットワークへの入力として直接フィードできることを示します。
論文 参考訳(メタデータ) (2022-10-06T15:35:49Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z) - Content Adaptive and Error Propagation Aware Deep Video Compression [110.31693187153084]
本稿では,コンテンツ適応型・誤り伝搬対応型ビデオ圧縮システムを提案する。
本手法では, 複数フレームの圧縮性能を1フレームではなく複数フレームで考慮し, 共同学習手法を用いる。
従来の圧縮システムでは手作りのコーディングモードを使用する代わりに,オンラインエンコーダ更新方式をシステム内に設計する。
論文 参考訳(メタデータ) (2020-03-25T09:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。