論文の概要: Efficient Neural Video Representation via Structure-Preseving Patch Decoding
- arxiv url: http://arxiv.org/abs/2506.12896v1
- Date: Sun, 15 Jun 2025 15:58:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:47.092464
- Title: Efficient Neural Video Representation via Structure-Preseving Patch Decoding
- Title(参考訳): 構造予測型パッチデコーディングによる効率的なニューラルビデオ表現
- Authors: Taiga Hayami, Kakeru Koizumi, Hiroshi Watanabe,
- Abstract要約: 構造保存パッチ(SPP)に基づくニューラルビデオ表現法を提案する。
提案手法では,各フレームを,PixelUnshuffleライクな操作を用いて,空間的に構造化されたパッチフレームの集合に再構成する。
標準映像データセットを用いた実験により,提案手法は既存のINRに基づく映像表現法と比較して,再現性や圧縮性能の向上を図っている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Implicit Neural Representations (INRs) have attracted significant interest for their ability to model complex signals by mapping spatial and temporal coordinates to signal values. In the context of neural video representation, several decoding strategies have been explored to balance compactness and reconstruction quality, including pixel-wise, frame-wise, and patch-wise methods. Patch-wise decoding aims to combine the flexibility of pixel-based models with the efficiency of frame-based approaches. However, conventional uniform patch division often leads to discontinuities at patch boundaries, as independently reconstructed regions may fail to form a coherent global structure. To address this limitation, we propose a neural video representation method based on Structure-Preserving Patches (SPPs). Our approach rearranges each frame into a set of spatially structured patch frames using a PixelUnshuffle-like operation. This rearrangement maintains the spatial coherence of the original frame while enabling patch-level decoding. The network learns to predict these rearranged patch frames, which supports a global-to-local fitting strategy and mitigates degradation caused by upsampling. Experiments on standard video datasets show that the proposed method improves reconstruction quality and compression performance compared to existing INR-based video representation methods.
- Abstract(参考訳): Inlicit Neural Representations (INR)は、空間座標と時間座標を信号値にマッピングすることで、複雑な信号をモデル化する能力に大きな関心を集めている。
ニューラルビデオ表現の文脈では、コンパクト性と再構成品質のバランスをとるために、ピクセルワイド、フレームワイド、パッチワイドといったいくつかのデコード戦略が検討されている。
パッチワイズデコーディングは、ピクセルベースのモデルの柔軟性とフレームベースのアプローチの効率性を組み合わせることを目的としている。
しかしながら、従来の均一なパッチ分割は、独立に再構成された領域がコヒーレントなグローバル構造を形成するのに失敗するため、パッチ境界における不連続をもたらすことが多い。
この制限に対処するため,構造保存パッチ(SPP)に基づくニューラルビデオ表現手法を提案する。
提案手法では,各フレームを,PixelUnshuffleライクな操作を用いて,空間的に構造化されたパッチフレームの集合に再構成する。
この再構成は、パッチレベルの復号化を実現しつつ、元のフレームの空間コヒーレンスを維持する。
ネットワークは、これらの再配置されたパッチフレームを予測し、グローバルからローカルへのフィッティング戦略をサポートし、アップサンプリングによる劣化を緩和する。
標準映像データセットを用いた実験により,提案手法は既存のINRに基づく映像表現法と比較して,再現性や圧縮性能の向上を図っている。
関連論文リスト
- CANeRV: Content Adaptive Neural Representation for Video Compression [89.35616046528624]
映像圧縮のためのコンテンツ適応型ニューラル表現法(CANeRV)を提案する。
CANeRVは革新的なINRベースのビデオ圧縮ネットワークであり、各ビデオシーケンスの特定の内容に基づいて、構造最適化を適応的に行う。
CNeRVはH.266/VVCと最先端のINRベースの動画圧縮技術の両方を多種多様なビデオデータセットで上回り得ることを示す。
論文 参考訳(メタデータ) (2025-02-10T06:21:16Z) - CoordFlow: Coordinate Flow for Pixel-wise Neural Video Representation [11.364753833652182]
Implicit Neural Representation (INR)は、従来の変換ベースの手法に代わる有望な代替手段である。
ビデオ圧縮のための新しいピクセルワイドINRであるCoordFlowを紹介する。
他のピクセルワイドINRと比較すると、最先端のフレームワイド技術と比較すると、オンパー性能が向上する。
論文 参考訳(メタデータ) (2025-01-01T22:58:06Z) - Boosting Neural Representations for Videos with a Conditional Decoder [28.073607937396552]
Inlicit Neural representations (INRs) は、ビデオストレージと処理において有望なアプローチとして登場した。
本稿では,現在の暗黙的ビデオ表現手法のための普遍的なブースティングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T08:32:19Z) - Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。
我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文 参考訳(メタデータ) (2023-06-13T17:52:23Z) - FFNeRV: Flow-Guided Frame-Wise Neural Representations for Videos [5.958701846880935]
ビデオ中のフレーム間の時間的冗長性を利用するために,フロー情報をフレームワイズ表現に組み込む新しい手法であるFFNeRVを提案する。
モデル圧縮技術により、FFNeRVは広く使われている標準ビデオコーデック(H.264とHEVC)より優れ、最先端のビデオ圧縮アルゴリズムと同等に動作する。
論文 参考訳(メタデータ) (2022-12-23T12:51:42Z) - Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。
グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。
さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文 参考訳(メタデータ) (2021-11-27T05:35:10Z) - ARVo: Learning All-Range Volumetric Correspondence for Video Deblurring [92.40655035360729]
ビデオデブラリングモデルは連続フレームを利用して、カメラの揺動や物体の動きからぼやけを取り除く。
特徴空間におけるボケフレーム間の空間的対応を学習する新しい暗黙的手法を提案する。
提案手法は,新たに収集したビデオデブレーション用ハイフレームレート(1000fps)データセットとともに,広く採用されているDVDデータセット上で評価される。
論文 参考訳(メタデータ) (2021-03-07T04:33:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。