Fugu-MT 論文翻訳(概要): Boosting Neural Representations for Videos with a Conditional Decoder

論文の概要: Boosting Neural Representations for Videos with a Conditional Decoder

arxiv url: http://arxiv.org/abs/2402.18152v2
Date: Fri, 8 Mar 2024 04:11:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-11 22:25:00.332202
Title: Boosting Neural Representations for Videos with a Conditional Decoder
Title（参考訳）: 条件付きデコーダによる映像のニューラル表現の強化
Authors: Xinjie Zhang, Ren Yang, Dailan He, Xingtong Ge, Tongda Xu, Yan Wang, Hongwei Qin, Jun Zhang
Abstract要約: Inlicit Neural representations (INRs) は、ビデオストレージと処理において有望なアプローチとして登場した。本稿では,現在の暗黙的ビデオ表現手法のための普遍的なブースティングフレームワークを提案する。
参考スコア（独自算出の注目度）: 29.282744018755558
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Implicit neural representations (INRs) have emerged as a promising approach for video storage and processing, showing remarkable versatility across various video tasks. However, existing methods often fail to fully leverage their representation capabilities, primarily due to inadequate alignment of intermediate features during target frame decoding. This paper introduces a universal boosting framework for current implicit video representation approaches. Specifically, we utilize a conditional decoder with a temporal-aware affine transform module, which uses the frame index as a prior condition to effectively align intermediate features with target frames. Besides, we introduce a sinusoidal NeRV-like block to generate diverse intermediate features and achieve a more balanced parameter distribution, thereby enhancing the model's capacity. With a high-frequency information-preserving reconstruction loss, our approach successfully boosts multiple baseline INRs in the reconstruction quality and convergence speed for video regression, and exhibits superior inpainting and interpolation results. Further, we integrate a consistent entropy minimization technique and develop video codecs based on these boosted INRs. Experiments on the UVG dataset confirm that our enhanced codecs significantly outperform baseline INRs and offer competitive rate-distortion performance compared to traditional and learning-based codecs.
Abstract（参考訳）: Inlicit Neural representations (INR) は、ビデオストレージと処理において有望なアプローチとして登場し、様々なビデオタスクにおいて顕著な汎用性を示している。しかし、既存の手法は、主にターゲットフレームの復号中に中間機能の整列が不十分なため、表現能力を十分に活用できないことが多い。本稿では,現在の暗黙的ビデオ表現手法のための普遍的なブースティングフレームワークを提案する。具体的には,条件付きデコーダと時間対応アフィン変換モジュールを用いて,フレームインデックスを先行条件とし,中間特徴を目標フレームと効果的に整合させる。さらに, 正弦波型NeRV型ブロックを導入し, 多様な中間特性を生成し, パラメータ分布のバランスを保ち, モデルのキャパシティを向上する。提案手法は,高頻度情報保存再生損失を伴って,ビデオレグレッションの再生品質と収束速度において複数のベースラインINRを向上し,より優れた塗装および補間結果を示す。さらに,一貫したエントロピー最小化手法を統合し,これらのインバータに基づくビデオコーデックを開発する。 UVGデータセットの実験では、拡張コーデックはベースラインINRよりも大幅に優れており、従来のコーデックや学習ベースのコーデックに比べて競合速度歪み性能が優れていることが確認された。

関連論文リスト

Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。 CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文参考訳（メタデータ） (2025-03-05T17:59:19Z)
CANeRV: Content Adaptive Neural Representation for Video Compression [89.35616046528624]
映像圧縮のためのコンテンツ適応型ニューラル表現法(CANeRV)を提案する。 CANeRVは革新的なINRベースのビデオ圧縮ネットワークであり、各ビデオシーケンスの特定の内容に基づいて、構造最適化を適応的に行う。 CNeRVはH.266/VVCと最先端のINRベースの動画圧縮技術の両方を多種多様なビデオデータセットで上回り得ることを示す。
論文参考訳（メタデータ） (2025-02-10T06:21:16Z)
High-Efficiency Neural Video Compression via Hierarchical Predictive Learning [27.41398149573729]
強化されたDeep Hierarchical Video Compression(DHVC 2.0)は、優れた圧縮性能と目覚ましい複雑さの効率を導入する。階層的な予測符号化を使用して、各ビデオフレームをマルチスケール表現に変換する。トランスミッションフレンドリーなプログレッシブデコーディングをサポートしており、パケットロスの存在下では特にネットワーク化されたビデオアプリケーションに有利である。
論文参考訳（メタデータ） (2024-10-03T15:40:58Z)
VQ-NeRV: A Vector Quantized Neural Representation for Videos [3.6662666629446043]
Inlicit Neural representations (INR)は、ニューラルネットワーク内のビデオのエンコーディングに優れ、ビデオ圧縮やデノイングといったコンピュータビジョンタスクにおける約束を示す。本稿では,新しいコンポーネントであるVQ-NeRVブロックを統合した,高度なU字型アーキテクチャであるVector Quantized-NeRV(VQ-NeRV)を紹介する。このブロックには、ネットワークの浅い残差特徴とフレーム間の残差情報を効果的に識別するコードブック機構が組み込まれている。
論文参考訳（メタデータ） (2024-03-19T03:19:07Z)
NERV++: An Enhanced Implicit Neural Video Representation [11.25130799452367]
強調された暗黙的ニューラルビデオ表現であるNeRV++のニューラル表現を導入する。 NeRV++は、オリジナルのNeRVデコーダアーキテクチャよりも単純だが効果的な拡張である。提案手法をUVG,MCL JVC,Bunnyのデータセット上で評価し,INRによる映像圧縮の競合性を実現する。
論文参考訳（メタデータ） (2024-02-28T13:00:32Z)
Progressive Fourier Neural Representation for Sequential Video Compilation [75.43041679717376]
連続学習によって動機づけられたこの研究は、シーケンシャルエンコーディングセッションを通じて、複数の複雑なビデオデータに対して、ニューラル暗黙表現を蓄積し、転送する方法を研究する。本稿では,FFNR(Progressive Fourier Neural Representation)という,FFNR(Progressive Fourier Neural Representation)という,FFNR(Progressive Fourier Neural Representation)という手法を提案する。我々は,UVG8/17とDAVIS50のビデオシーケンスベンチマークでPFNR法を検証し,強力な連続学習ベースラインよりも優れた性能向上を実現した。
論文参考訳（メタデータ） (2023-06-20T06:02:19Z)
VNVC: A Versatile Neural Video Coding Framework for Efficient Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文参考訳（メタデータ） (2023-06-19T03:04:57Z)
HiNeRV: Video Compression with Hierarchical Encoding-based Neural Representation [14.088444622391501]
Implicit Representations (INRs) は画像やビデオのコンテントの表現や圧縮に使われてきた。既存のINRベースの手法は、ビデオ圧縮の最先端技術に匹敵する速度性能を達成できなかった。軽量層と階層的位置符号化を組み合わせたINRであるHiNeRVを提案する。
論文参考訳（メタデータ） (2023-06-16T12:59:52Z)
HNeRV: A Hybrid Neural Representation for Videos [56.492309149698606]
暗黙の神経表現は、動画をニューラルネットワークとして保存する。ビデオ用ハイブリッドニューラル表現法(HNeRV)を提案する。コンテンツ適応型埋め込みと再設計アーキテクチャにより、HNeRVはビデオレグレッションタスクにおいて暗黙のメソッドよりも優れる。
論文参考訳（メタデータ） (2023-04-05T17:55:04Z)
Modality-Agnostic Variational Compression of Implicit Neural Representations [96.35492043867104]
Inlicit Neural Representation (INR) としてパラメータ化されたデータの関数的ビューに基づくモーダリティ非依存型ニューラル圧縮アルゴリズムを提案する。潜時符号化と疎性の間のギャップを埋めて、ソフトゲーティング機構に非直線的にマッピングされたコンパクト潜時表現を得る。このような潜在表現のデータセットを得た後、ニューラル圧縮を用いてモーダリティ非依存空間におけるレート/歪みトレードオフを直接最適化する。
論文参考訳（メタデータ） (2023-01-23T15:22:42Z)
FFNeRV: Flow-Guided Frame-Wise Neural Representations for Videos [5.958701846880935]
ビデオ中のフレーム間の時間的冗長性を利用するために,フロー情報をフレームワイズ表現に組み込む新しい手法であるFFNeRVを提案する。モデル圧縮技術により、FFNeRVは広く使われている標準ビデオコーデック(H.264とHEVC)より優れ、最先端のビデオ圧縮アルゴリズムと同等に動作する。
論文参考訳（メタデータ） (2022-12-23T12:51:42Z)
Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文参考訳（メタデータ） (2022-10-13T08:15:08Z)
A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。 8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文参考訳（メタデータ） (2022-02-06T16:29:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。