論文の概要: Tree-NeRV: A Tree-Structured Neural Representation for Efficient Non-Uniform Video Encoding
- arxiv url: http://arxiv.org/abs/2504.12899v1
- Date: Thu, 17 Apr 2025 12:40:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:36:47.917042
- Title: Tree-NeRV: A Tree-Structured Neural Representation for Efficient Non-Uniform Video Encoding
- Title(参考訳): Tree-NeRV: 効率的な非一様ビデオ符号化のための木構造ニューラル表現
- Authors: Jiancheng Zhao, Yifan Zhan, Qingtian Zhu, Mingze Ma, Muyao Niu, Zunian Wan, Xiang Ji, Yinqiang Zheng,
- Abstract要約: Inlicit Neural Representations for Videos (NeRV)がビデオ表現の強力なパラダイムとして登場した。
既存のNERVベースの手法は、時間軸に沿った一様サンプリングに依存しており、最適速度歪み(RD)性能に繋がる。
本稿では,木構造を持つ新しい特徴表現であるTree-NeRVを提案する。
- 参考スコア(独自算出の注目度): 26.638854682076733
- License:
- Abstract: Implicit Neural Representations for Videos (NeRV) have emerged as a powerful paradigm for video representation, enabling direct mappings from frame indices to video frames. However, existing NeRV-based methods do not fully exploit temporal redundancy, as they rely on uniform sampling along the temporal axis, leading to suboptimal rate-distortion (RD) performance. To address this limitation, we propose Tree-NeRV, a novel tree-structured feature representation for efficient and adaptive video encoding. Unlike conventional approaches, Tree-NeRV organizes feature representations within a Binary Search Tree (BST), enabling non-uniform sampling along the temporal axis. Additionally, we introduce an optimization-driven sampling strategy, dynamically allocating higher sampling density to regions with greater temporal variation. Extensive experiments demonstrate that Tree-NeRV achieves superior compression efficiency and reconstruction quality, outperforming prior uniform sampling-based methods. Code will be released.
- Abstract(参考訳): Implicit Neural Representations for Videos (NeRV)は、フレームインデックスからビデオフレームへの直接マッピングを可能にする、ビデオ表現の強力なパラダイムとして登場した。
しかし、既存のNERVベースの手法は、時間軸に沿った一様サンプリングに依存するため、時間的冗長性を十分に活用していない。
この制限に対処するため,新しい木構造特徴表現であるTree-NeRVを提案する。
従来の手法とは異なり、Tree-NeRVはバイナリ検索ツリー(BST)内で特徴表現を整理し、時間軸に沿って一様でないサンプリングを可能にする。
さらに,時間変動が大きい領域に動的にサンプリング密度を割り当てる最適化型サンプリング戦略を導入する。
広範囲な実験により、Tree-NeRVはより優れた圧縮効率と再構成品質を実現し、以前の一様サンプリング法よりも優れた性能を示した。
コードはリリースされる。
関連論文リスト
- CANeRV: Content Adaptive Neural Representation for Video Compression [89.35616046528624]
映像圧縮のためのコンテンツ適応型ニューラル表現法(CANeRV)を提案する。
CANeRVは革新的なINRベースのビデオ圧縮ネットワークであり、各ビデオシーケンスの特定の内容に基づいて、構造最適化を適応的に行う。
CNeRVはH.266/VVCと最先端のINRベースの動画圧縮技術の両方を多種多様なビデオデータセットで上回り得ることを示す。
論文 参考訳(メタデータ) (2025-02-10T06:21:16Z) - DGTR: Distributed Gaussian Turbo-Reconstruction for Sparse-View Vast Scenes [81.56206845824572]
新規ビュー合成(NVS)アプローチは、広大なシーン再構築において重要な役割を担っている。
大規模な環境下では、復元の質が悪くなる場合が少なくない。
本稿では,スパース・ビュー・ワイド・シーンのための効率的なガウス再構成のための分散フレームワークであるDGTRを提案する。
論文 参考訳(メタデータ) (2024-11-19T07:51:44Z) - PNeRV: A Polynomial Neural Representation for Videos [28.302862266270093]
Inlicit Neural Representations on videoの抽出は、時間次元の追加によるユニークな課題を生じさせる。
PNeRV(Polynomial Neural Representation for Videos)を紹介する。
PNeRVは、INRの領域でビデオデータによって引き起こされる課題を緩和するが、高度なビデオ処理と分析のための新たな道を開く。
論文 参考訳(メタデータ) (2024-06-27T16:15:22Z) - D-NPC: Dynamic Neural Point Clouds for Non-Rigid View Synthesis from Monocular Video [53.83936023443193]
本稿では,スマートフォンのキャプチャなどのモノクロ映像から動的に新しいビューを合成する手法を導入することにより,この分野に貢献する。
我々のアプローチは、局所的な幾何学と外観を別個のハッシュエンコードされたニューラル特徴グリッドにエンコードする暗黙の時間条件のポイントクラウドである、$textitdynamic Neural point cloudとして表現されている。
論文 参考訳(メタデータ) (2024-06-14T14:35:44Z) - VQ-NeRV: A Vector Quantized Neural Representation for Videos [3.6662666629446043]
Inlicit Neural representations (INR)は、ニューラルネットワーク内のビデオのエンコーディングに優れ、ビデオ圧縮やデノイングといったコンピュータビジョンタスクにおける約束を示す。
本稿では,新しいコンポーネントであるVQ-NeRVブロックを統合した,高度なU字型アーキテクチャであるVector Quantized-NeRV(VQ-NeRV)を紹介する。
このブロックには、ネットワークの浅い残差特徴とフレーム間の残差情報を効果的に識別するコードブック機構が組み込まれている。
論文 参考訳(メタデータ) (2024-03-19T03:19:07Z) - Boosting Neural Representations for Videos with a Conditional Decoder [28.073607937396552]
Inlicit Neural representations (INRs) は、ビデオストレージと処理において有望なアプローチとして登場した。
本稿では,現在の暗黙的ビデオ表現手法のための普遍的なブースティングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T08:32:19Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - Modality-Agnostic Variational Compression of Implicit Neural
Representations [96.35492043867104]
Inlicit Neural Representation (INR) としてパラメータ化されたデータの関数的ビューに基づくモーダリティ非依存型ニューラル圧縮アルゴリズムを提案する。
潜時符号化と疎性の間のギャップを埋めて、ソフトゲーティング機構に非直線的にマッピングされたコンパクト潜時表現を得る。
このような潜在表現のデータセットを得た後、ニューラル圧縮を用いてモーダリティ非依存空間におけるレート/歪みトレードオフを直接最適化する。
論文 参考訳(メタデータ) (2023-01-23T15:22:42Z) - FFNeRV: Flow-Guided Frame-Wise Neural Representations for Videos [5.958701846880935]
ビデオ中のフレーム間の時間的冗長性を利用するために,フロー情報をフレームワイズ表現に組み込む新しい手法であるFFNeRVを提案する。
モデル圧縮技術により、FFNeRVは広く使われている標準ビデオコーデック(H.264とHEVC)より優れ、最先端のビデオ圧縮アルゴリズムと同等に動作する。
論文 参考訳(メタデータ) (2022-12-23T12:51:42Z) - E-NeRV: Expedite Neural Video Representation with Disentangled
Spatial-Temporal Context [14.549945320069892]
本稿では,画像の暗黙的表現を空間的・時間的コンテキストに分解することで,NeRVを劇的に高速化するE-NeRVを提案する。
実験により,本手法はパラメータを少なくして大幅な性能向上が可能であり,コンバージェンスにおける速度が8倍を超えることが確認された。
論文 参考訳(メタデータ) (2022-07-17T10:16:47Z) - Neural BRDF Representation and Importance Sampling [79.84316447473873]
本稿では,リフレクタンスBRDFデータのコンパクトニューラルネットワークに基づく表現について述べる。
BRDFを軽量ネットワークとしてエンコードし、適応角サンプリングによるトレーニングスキームを提案する。
複数の実世界のデータセットから等方性および異方性BRDFの符号化結果を評価する。
論文 参考訳(メタデータ) (2021-02-11T12:00:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。