論文の概要: Implicit-explicit Integrated Representations for Multi-view Video
Compression
- arxiv url: http://arxiv.org/abs/2311.17350v1
- Date: Wed, 29 Nov 2023 04:15:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 22:42:03.309793
- Title: Implicit-explicit Integrated Representations for Multi-view Video
Compression
- Title(参考訳): 多視点映像圧縮のための暗黙的な統合表現
- Authors: Chen Zhu, Guo Lu, Bing He, Rong Xie, Li Song
- Abstract要約: マルチビュービデオ圧縮のための暗黙的・明示的統合表現を提案する。
提案するフレームワークは,暗黙的なニューラル表現と明示的な2Dデータセットの長所を組み合わせたものだ。
提案するフレームワークは,最新のマルチビュービデオ圧縮標準MIVに匹敵する,あるいはさらに優れた性能を実現することができる。
- 参考スコア(独自算出の注目度): 40.86402535896703
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the increasing consumption of 3D displays and virtual reality,
multi-view video has become a promising format. However, its high resolution
and multi-camera shooting result in a substantial increase in data volume,
making storage and transmission a challenging task. To tackle these
difficulties, we propose an implicit-explicit integrated representation for
multi-view video compression. Specifically, we first use the explicit
representation-based 2D video codec to encode one of the source views.
Subsequently, we propose employing the implicit neural representation
(INR)-based codec to encode the remaining views. The implicit codec takes the
time and view index of multi-view video as coordinate inputs and generates the
corresponding implicit reconstruction frames.To enhance the compressibility, we
introduce a multi-level feature grid embedding and a fully convolutional
architecture into the implicit codec. These components facilitate
coordinate-feature and feature-RGB mapping, respectively. To further enhance
the reconstruction quality from the INR codec, we leverage the high-quality
reconstructed frames from the explicit codec to achieve inter-view
compensation. Finally, the compensated results are fused with the implicit
reconstructions from the INR to obtain the final reconstructed frames. Our
proposed framework combines the strengths of both implicit neural
representation and explicit 2D codec. Extensive experiments conducted on public
datasets demonstrate that the proposed framework can achieve comparable or even
superior performance to the latest multi-view video compression standard MIV
and other INR-based schemes in terms of view compression and scene modeling.
- Abstract(参考訳): 3Dディスプレイと仮想現実の消費の増加に伴い、マルチビュービデオは有望なフォーマットになりつつある。
しかし、その高解像度かつマルチカメラ撮影により、データボリュームが大幅に増加し、ストレージと送信が困難なタスクとなる。
これらの課題に対処するため,多視点ビデオ圧縮のための暗黙的な統合表現を提案する。
具体的には、まず、明示的な表現に基づく2Dビデオコーデックを使用して、ソースビューの1つを符号化する。
次に,暗黙的ニューラル表現(inr)ベースのコーデックを用いて,残りのビューをエンコードする。
暗黙コーデックは,マルチビュー映像の時間とビューインデックスを座標入力として,対応する暗黙的再構成フレームを生成する。圧縮性を高めるために,多レベル特徴グリッド埋め込みと完全畳み込みアーキテクチャを暗黙的コーデックに導入する。
これらのコンポーネントは、それぞれ座標-機能と特徴-RGBマッピングを促進する。
InRコーデックからの再構成品質をさらに向上するために、明示的なコーデックから高品質な再構成フレームを活用し、ビュー間補償を実現する。
最後に、補償結果をINRからの暗黙の再構成と融合させて、最終的な再構成フレームを得る。
提案フレームワークは,暗黙的ニューラル表現と明示的2次元コーデックの長所を組み合わせたものである。
公開データセットで行った広範囲な実験により、提案されたフレームワークは、最新のマルチビュービデオ圧縮標準mivや他のinrベースのスキームと、ビュー圧縮とシーンモデリングの点で同等あるいはそれ以上のパフォーマンスを達成できることが示されている。
関連論文リスト
- High-Efficiency Neural Video Compression via Hierarchical Predictive Learning [27.41398149573729]
強化されたDeep Hierarchical Video Compression(DHVC 2.0)は、優れた圧縮性能と目覚ましい複雑さの効率を導入する。
階層的な予測符号化を使用して、各ビデオフレームをマルチスケール表現に変換する。
トランスミッションフレンドリーなプログレッシブデコーディングをサポートしており、パケットロスの存在下では特にネットワーク化されたビデオアプリケーションに有利である。
論文 参考訳(メタデータ) (2024-10-03T15:40:58Z) - When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [112.44822009714461]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z) - Compression-Realized Deep Structural Network for Video Quality Enhancement [78.13020206633524]
本稿では,圧縮ビデオの品質向上の課題に焦点をあてる。
既存の手法のほとんどは、圧縮コーデック内での事前処理を最適に活用するための構造設計を欠いている。
新しいパラダイムは、より意識的な品質向上プロセスのために緊急に必要である。
論文 参考訳(メタデータ) (2024-05-10T09:18:17Z) - Hybrid Video Diffusion Models with 2D Triplane and 3D Wavelet Representation [35.52770785430601]
複雑な依存関係をより効率的にキャプチャできるHVtemporalDMというハイブリッドビデオオートエンコーダを提案する。
HVDMは、ビデオの歪んだ表現を抽出するハイブリッドビデオオートエンコーダによって訓練される。
当社のハイブリッドオートエンコーダは、生成されたビデオに詳細な構造と詳細を付加した、より包括的なビデオラテントを提供します。
論文 参考訳(メタデータ) (2024-02-21T11:46:16Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - FFNeRV: Flow-Guided Frame-Wise Neural Representations for Videos [5.958701846880935]
ビデオ中のフレーム間の時間的冗長性を利用するために,フロー情報をフレームワイズ表現に組み込む新しい手法であるFFNeRVを提案する。
モデル圧縮技術により、FFNeRVは広く使われている標準ビデオコーデック(H.264とHEVC)より優れ、最先端のビデオ圧縮アルゴリズムと同等に動作する。
論文 参考訳(メタデータ) (2022-12-23T12:51:42Z) - Learned Video Compression via Heterogeneous Deformable Compensation
Network [78.72508633457392]
不安定な圧縮性能の問題に対処するために,不均一変形補償戦略(HDCVC)を用いた学習ビデオ圧縮フレームワークを提案する。
より具体的には、提案アルゴリズムは隣接する2つのフレームから特徴を抽出し、コンテンツ近傍の不均一な変形(HetDeform)カーネルオフセットを推定する。
実験結果から,HDCVCは最近の最先端の学習ビデオ圧縮手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-11T02:31:31Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。