論文の概要: Neural Video Representation for Redundancy Reduction and Consistency Preservation
- arxiv url: http://arxiv.org/abs/2409.18497v1
- Date: Sun, 13 Oct 2024 11:34:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 05:52:22.696654
- Title: Neural Video Representation for Redundancy Reduction and Consistency Preservation
- Title(参考訳): 冗長化と一貫性保存のためのニューラルビデオ表現
- Authors: Taiga Hayami, Takahiro Shindo, Shunsuke Akamatsu, Hiroshi Watanabe,
- Abstract要約: 入射神経表現(INR)は様々な信号をネットワークに埋め込む。
本稿では,フレームの高周波成分と隣接するフレーム間の特徴差を利用した映像表現手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Implicit neural representations (INRs) embed various signals into networks. They have gained attention in recent years because of their versatility in handling diverse signal types. For videos, INRs achieve video compression by embedding video signals into networks and compressing them. Conventional methods use an index that expresses the time of the frame or the features extracted from the frame as inputs to the network. The latter method provides greater expressive capability as the input is specific to each video. However, the features extracted from frames often contain redundancy, which contradicts the purpose of video compression. Moreover, since frame time information is not explicitly provided to the network, learning the relationships between frames is challenging. To address these issues, we aim to reduce feature redundancy by extracting features based on the high-frequency components of the frames. In addition, we use feature differences between adjacent frames in order for the network to learn frame relationships smoothly. We propose a video representation method that uses the high-frequency components of frames and the differences in features between adjacent frames. The experimental results show that our method outperforms the existing HNeRV method in 90 percent of the videos.
- Abstract(参考訳): 入射神経表現(INR)は様々な信号をネットワークに埋め込む。
彼らは近年、多様な信号タイプを扱う汎用性のために注目を集めている。
ビデオの場合、INRはビデオ信号をネットワークに埋め込んで圧縮することで、ビデオ圧縮を実現する。
従来の方法では、フレームの時間またはフレームから抽出された特徴をネットワークへの入力として表現するインデックスを使用する。
後者の方法は、入力が各ビデオに特有であるため、より豊かな表現能力を提供する。
しかし、フレームから抽出された特徴は冗長性を含むことが多く、ビデオ圧縮の目的とは矛盾する。
また,ネットワークにフレーム時間情報を明示的に提供していないため,フレーム間の関係を学習することは困難である。
これらの課題に対処するために,フレームの高周波成分に基づいて特徴を抽出することで特徴の冗長性を低減することを目的とする。
さらに、隣接フレーム間の特徴差を利用して、ネットワークがフレーム関係を円滑に学習する。
本稿では,フレームの高周波成分と隣接するフレーム間の特徴差を利用した映像表現手法を提案する。
実験の結果,ビデオの90%で既存のHNeRV法よりも優れていた。
関連論文リスト
- Implicit Neural Representation for Videos Based on Residual Connection [0.0]
画像再構成に有効な残差接続として低解像度フレームを用いる手法を提案する。
実験の結果,本手法はPSNRの既存手法であるHNeRVを49本中46本で上回っていることがわかった。
論文 参考訳(メタデータ) (2024-06-15T10:10:48Z) - NERV++: An Enhanced Implicit Neural Video Representation [11.25130799452367]
強調された暗黙的ニューラルビデオ表現であるNeRV++のニューラル表現を導入する。
NeRV++は、オリジナルのNeRVデコーダアーキテクチャよりも単純だが効果的な拡張である。
提案手法をUVG,MCL JVC,Bunnyのデータセット上で評価し,INRによる映像圧縮の競合性を実現する。
論文 参考訳(メタデータ) (2024-02-28T13:00:32Z) - Boosting Neural Representations for Videos with a Conditional Decoder [28.073607937396552]
Inlicit Neural representations (INRs) は、ビデオストレージと処理において有望なアプローチとして登場した。
本稿では,現在の暗黙的ビデオ表現手法のための普遍的なブースティングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T08:32:19Z) - Progressive Fourier Neural Representation for Sequential Video
Compilation [75.43041679717376]
連続学習によって動機づけられたこの研究は、シーケンシャルエンコーディングセッションを通じて、複数の複雑なビデオデータに対して、ニューラル暗黙表現を蓄積し、転送する方法を研究する。
本稿では,FFNR(Progressive Fourier Neural Representation)という,FFNR(Progressive Fourier Neural Representation)という,FFNR(Progressive Fourier Neural Representation)という手法を提案する。
我々は,UVG8/17とDAVIS50のビデオシーケンスベンチマークでPFNR法を検証し,強力な連続学習ベースラインよりも優れた性能向上を実現した。
論文 参考訳(メタデータ) (2023-06-20T06:02:19Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - DNeRV: Modeling Inherent Dynamics via Difference Neural Representation
for Videos [53.077189668346705]
映像の差分表現(eRV)
我々はこれを制限関数の適合性とフレーム差の重要性の観点から分析する。
DNeRVは最先端のニューラル圧縮アプローチと競合する結果を得る。
論文 参考訳(メタデータ) (2023-04-13T13:53:49Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - FFNeRV: Flow-Guided Frame-Wise Neural Representations for Videos [5.958701846880935]
ビデオ中のフレーム間の時間的冗長性を利用するために,フロー情報をフレームワイズ表現に組み込む新しい手法であるFFNeRVを提案する。
モデル圧縮技術により、FFNeRVは広く使われている標準ビデオコーデック(H.264とHEVC)より優れ、最先端のビデオ圧縮アルゴリズムと同等に動作する。
論文 参考訳(メタデータ) (2022-12-23T12:51:42Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - Spatial-Temporal Frequency Forgery Clue for Video Forgery Detection in
VIS and NIR Scenario [87.72258480670627]
既存の周波数領域に基づく顔偽造検出手法では、GAN鍛造画像は、実際の画像と比較して、周波数スペクトルに明らかな格子状の視覚的アーチファクトを持つ。
本稿では,コサイン変換に基づくフォージェリークリュー拡張ネットワーク(FCAN-DCT)を提案し,より包括的な時空間特徴表現を実現する。
論文 参考訳(メタデータ) (2022-07-05T09:27:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。