論文の概要: Structure-Preserving Patch Decoding for Efficient Neural Video Representation
- arxiv url: http://arxiv.org/abs/2506.12896v2
- Date: Thu, 26 Jun 2025 12:27:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 15:38:00.248347
- Title: Structure-Preserving Patch Decoding for Efficient Neural Video Representation
- Title(参考訳): 効率的なニューラルビデオ表現のための構造保存型パッチデコーディング
- Authors: Taiga Hayami, Kakeru Koizumi, Hiroshi Watanabe,
- Abstract要約: 構造保存パッチ(SPP)に基づくニューラルビデオ表現法を提案する。
提案手法は,各映像フレームを,決定論的画素ベースの分割により,空間的に整列したフレームのパッチ画像に分割する。
我々はデコーダにこれらの構造化パッチを再構築するよう訓練し、グローバルからローカルへのデコーダ戦略を可能にする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Implicit neural representations (INRs) are the subject of extensive research, particularly in their application to modeling complex signals by mapping spatial and temporal coordinates to corresponding values. When handling videos, mapping compact inputs to entire frames or spatially partitioned patch images is an effective approach. This strategy better preserves spatial relationships, reduces computational overhead, and improves reconstruction quality compared to coordinate-based mapping. However, predicting entire frames often limits the reconstruction of high-frequency visual details. Additionally, conventional patch-based approaches based on uniform spatial partitioning tend to introduce boundary discontinuities that degrade spatial coherence. We propose a neural video representation method based on Structure-Preserving Patches (SPPs) to address such limitations. Our method separates each video frame into patch images of spatially aligned frames through a deterministic pixel-based splitting similar to PixelUnshuffle. This operation preserves the global spatial structure while allowing patch-level decoding. We train the decoder to reconstruct these structured patches, enabling a global-to-local decoding strategy that captures the global layout first and refines local details. This effectively reduces boundary artifacts and mitigates distortions from naive upsampling. Experiments on standard video datasets demonstrate that our method achieves higher reconstruction quality and better compression performance than existing INR-based baselines.
- Abstract(参考訳): Inlicit Neural representations (INR) は、特に空間座標と時間座標を対応する値にマッピングすることで複雑な信号のモデリングへの応用において、広範な研究の対象となっている。
ビデオを扱う場合、コンパクトな入力をフレーム全体や空間的に分割されたパッチイメージにマッピングすることは効果的なアプローチである。
この戦略は空間的関係をよりよく保存し、計算オーバーヘッドを低減し、座標ベースのマッピングと比較して再構成品質を向上させる。
しかし、フレーム全体の予測は、しばしば高周波の視覚的詳細の再構築を制限する。
さらに、一様空間分割に基づく従来のパッチベースのアプローチは、空間コヒーレンスを低下させる境界不連続を導入する傾向がある。
本稿では,構造保存パッチ(SPP)に基づくニューラルビデオ表現手法を提案する。
提案手法では,各映像フレームを,PixelUnshuffleに類似した決定論的画素分割により,空間的に整列したフレームのパッチ画像に分割する。
この操作は、パッチレベルのデコードを可能にしながら、グローバルな空間構造を保存する。
我々はデコーダにこれらの構成されたパッチを再構築するよう訓練し、グローバルからローカルへのデコード戦略を可能にし、まずグローバルレイアウトをキャプチャし、ローカルの詳細を精査する。
これにより、バウンダリアーティファクトを効果的に低減し、単純なアップサンプリングからの歪みを軽減できる。
提案手法は,既存のINRベースラインよりも再現性が高く,圧縮性能も高いことを示す。
関連論文リスト
- CANeRV: Content Adaptive Neural Representation for Video Compression [89.35616046528624]
映像圧縮のためのコンテンツ適応型ニューラル表現法(CANeRV)を提案する。
CANeRVは革新的なINRベースのビデオ圧縮ネットワークであり、各ビデオシーケンスの特定の内容に基づいて、構造最適化を適応的に行う。
CNeRVはH.266/VVCと最先端のINRベースの動画圧縮技術の両方を多種多様なビデオデータセットで上回り得ることを示す。
論文 参考訳(メタデータ) (2025-02-10T06:21:16Z) - CoordFlow: Coordinate Flow for Pixel-wise Neural Video Representation [11.364753833652182]
Implicit Neural Representation (INR)は、従来の変換ベースの手法に代わる有望な代替手段である。
ビデオ圧縮のための新しいピクセルワイドINRであるCoordFlowを紹介する。
他のピクセルワイドINRと比較すると、最先端のフレームワイド技術と比較すると、オンパー性能が向上する。
論文 参考訳(メタデータ) (2025-01-01T22:58:06Z) - Boosting Neural Representations for Videos with a Conditional Decoder [28.073607937396552]
Inlicit Neural representations (INRs) は、ビデオストレージと処理において有望なアプローチとして登場した。
本稿では,現在の暗黙的ビデオ表現手法のための普遍的なブースティングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T08:32:19Z) - Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。
我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文 参考訳(メタデータ) (2023-06-13T17:52:23Z) - FFNeRV: Flow-Guided Frame-Wise Neural Representations for Videos [5.958701846880935]
ビデオ中のフレーム間の時間的冗長性を利用するために,フロー情報をフレームワイズ表現に組み込む新しい手法であるFFNeRVを提案する。
モデル圧縮技術により、FFNeRVは広く使われている標準ビデオコーデック(H.264とHEVC)より優れ、最先端のビデオ圧縮アルゴリズムと同等に動作する。
論文 参考訳(メタデータ) (2022-12-23T12:51:42Z) - Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。
グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。
さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文 参考訳(メタデータ) (2021-11-27T05:35:10Z) - ARVo: Learning All-Range Volumetric Correspondence for Video Deblurring [92.40655035360729]
ビデオデブラリングモデルは連続フレームを利用して、カメラの揺動や物体の動きからぼやけを取り除く。
特徴空間におけるボケフレーム間の空間的対応を学習する新しい暗黙的手法を提案する。
提案手法は,新たに収集したビデオデブレーション用ハイフレームレート(1000fps)データセットとともに,広く採用されているDVDデータセット上で評価される。
論文 参考訳(メタデータ) (2021-03-07T04:33:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。