論文の概要: Neural Video Representation for Redundancy Reduction and Consistency Preservation
- arxiv url: http://arxiv.org/abs/2409.18497v2
- Date: Sun, 13 Oct 2024 11:34:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 15:02:10.335361
- Title: Neural Video Representation for Redundancy Reduction and Consistency Preservation
- Title(参考訳): 冗長化と一貫性保存のためのニューラルビデオ表現
- Authors: Taiga Hayami, Takahiro Shindo, Shunsuke Akamatsu, Hiroshi Watanabe,
- Abstract要約: 入射神経表現(INR)は、様々な信号をニューラルネットワークに埋め込む。
フレームの高周波成分と低周波成分の両方を生成する映像表現法を提案する。
実験の結果,提案手法は既存のHNeRV法よりも優れており,動画の96%において優れた結果が得られた。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Implicit neural representation (INR) embed various signals into neural networks. They have gained attention in recent years because of their versatility in handling diverse signal types. In the context of video, INR achieves video compression by embedding video signals directly into networks and compressing them. Conventional methods either use an index that expresses the time of the frame or features extracted from individual frames as network inputs. The latter method provides greater expressive capability as the input is specific to each video. However, the features extracted from frames often contain redundancy, which contradicts the purpose of video compression. Additionally, such redundancies make it challenging to accurately reconstruct high-frequency components in the frames. To address these problems, we focus on separating the high-frequency and low-frequency components of the reconstructed frame. We propose a video representation method that generates both the high-frequency and low-frequency components of the frame, using features extracted from the high-frequency components and temporal information, respectively. Experimental results demonstrate that our method outperforms the existing HNeRV method, achieving superior results in 96 percent of the videos.
- Abstract(参考訳): 入射神経表現(INR)は、様々な信号をニューラルネットワークに埋め込む。
彼らは近年、多様な信号タイプを扱う汎用性のために注目を集めている。
ビデオの文脈では、INRはビデオ信号を直接ネットワークに埋め込んで圧縮することで、ビデオ圧縮を実現する。
従来の手法では、フレームの時間を表すインデックスや、個々のフレームから抽出した特徴をネットワーク入力として使用する。
後者の方法は、入力が各ビデオに特有であるため、より豊かな表現能力を提供する。
しかし、フレームから抽出された特徴は冗長性を含むことが多く、ビデオ圧縮の目的とは矛盾する。
さらに、そのような冗長性により、フレーム内の高周波コンポーネントを正確に再構築することが困難になる。
これらの問題に対処するため,再建フレームの高周波成分と低周波成分の分離に焦点をあてる。
本稿では,フレームの高周波成分と低周波成分の両方を生成する映像表現手法を提案する。
実験の結果,提案手法は既存のHNeRV法よりも優れており,動画の96%において優れた結果が得られた。
関連論文リスト
- Implicit Neural Representation for Videos Based on Residual Connection [0.0]
画像再構成に有効な残差接続として低解像度フレームを用いる手法を提案する。
実験の結果,本手法はPSNRの既存手法であるHNeRVを49本中46本で上回っていることがわかった。
論文 参考訳(メタデータ) (2024-06-15T10:10:48Z) - Accelerated Event-Based Feature Detection and Compression for
Surveillance Video Systems [1.5390526524075634]
スパース圧縮表現において時間的冗長性を伝達する新しいシステムを提案する。
我々はADDERと呼ばれるビデオ表現フレームワークを利用して、フレーム化されたビデオを疎結合で非同期な強度サンプルに変換する。
我々の研究は、今後のニューロモルフィックセンサーの道を切り拓き、スパイクニューラルネットワークによる将来の応用に有効である。
論文 参考訳(メタデータ) (2023-12-13T15:30:29Z) - Aggregating Long-term Sharp Features via Hybrid Transformers for Video
Deblurring [76.54162653678871]
本稿では,特徴集約のためのハイブリッドトランスフォーマーを用いて,隣接するフレームとシャープフレームの両方を活用するビデオデブロアリング手法を提案する。
提案手法は,定量的な計測値と視覚的品質の観点から,最先端のビデオデブロアリング法,およびイベント駆動ビデオデブロアリング法より優れる。
論文 参考訳(メタデータ) (2023-09-13T16:12:11Z) - DNeRV: Modeling Inherent Dynamics via Difference Neural Representation
for Videos [53.077189668346705]
映像の差分表現(eRV)
我々はこれを制限関数の適合性とフレーム差の重要性の観点から分析する。
DNeRVは最先端のニューラル圧縮アプローチと競合する結果を得る。
論文 参考訳(メタデータ) (2023-04-13T13:53:49Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - FFNeRV: Flow-Guided Frame-Wise Neural Representations for Videos [5.958701846880935]
ビデオ中のフレーム間の時間的冗長性を利用するために,フロー情報をフレームワイズ表現に組み込む新しい手法であるFFNeRVを提案する。
モデル圧縮技術により、FFNeRVは広く使われている標準ビデオコーデック(H.264とHEVC)より優れ、最先端のビデオ圧縮アルゴリズムと同等に動作する。
論文 参考訳(メタデータ) (2022-12-23T12:51:42Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - VideoINR: Learning Video Implicit Neural Representation for Continuous
Space-Time Super-Resolution [75.79379734567604]
ビデオインプリシットニューラル表現(Video Implicit Neural Representation, VideoINR)は任意の空間解像度とフレームレートの映像にデコード可能であることを示す。
本稿では,最新のSTVSR手法を用いて,一般的なアップサンプリングスケールにおいて,ビデオINRが競合性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-06-09T17:45:49Z) - VRT: A Video Restoration Transformer [126.79589717404863]
ビデオ復元(例:ビデオ超解像度)は、高品質のフレームを低品質のフレームから復元することを目的としている。
並列フレーム予測と長距離時間依存性モデリング機能を備えたビデオ再生変換器(VRT)を提案する。
論文 参考訳(メタデータ) (2022-01-28T17:54:43Z) - Implicit Neural Video Compression [17.873088127087605]
暗黙的なニューラル表現で全解像度映像列を圧縮する手法を提案する。
各フレームは、座標位置をピクセル値にマッピングするニューラルネットワークとして表現される。
我々は、異なる暗黙ネットワークを用いて座標入力を変調し、フレーム間の効率的な動き補償を可能にする。
論文 参考訳(メタデータ) (2021-12-21T15:59:00Z) - End-to-End Learning for Video Frame Compression with Self-Attention [25.23586503813838]
ビデオフレームを圧縮するエンド・ツー・エンドの学習システムを提案する。
我々のシステムはフレームの深い埋め込みを学習し、その差分を潜時空間でエンコードする。
実験の結果,提案システムは高い圧縮率と高客観的な視覚的品質を実現することがわかった。
論文 参考訳(メタデータ) (2020-04-20T12:11:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。