論文の概要: PS-NeRV: Patch-wise Stylized Neural Representations for Videos
- arxiv url: http://arxiv.org/abs/2208.03742v1
- Date: Sun, 7 Aug 2022 14:45:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-09 13:27:24.311608
- Title: PS-NeRV: Patch-wise Stylized Neural Representations for Videos
- Title(参考訳): PS-NeRV:ビデオのためのパッチワイズスティル化ニューラル表現
- Authors: Yunpeng Bai, Chao Dong, Cairong Wang
- Abstract要約: PS-NeRVは、動画をパッチと対応するパッチ座標の関数として表現する。
画像ワイド手法の利点を自然に受け継ぎ、高速な復号化速度で優れた復号化性能を実現する。
- 参考スコア(独自算出の注目度): 13.14511356472246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study how to represent a video with implicit neural representations
(INRs). Classical INRs methods generally utilize MLPs to map input coordinates
to output pixels. While some recent works have tried to directly reconstruct
the whole image with CNNs. However, we argue that both the above pixel-wise and
image-wise strategies are not favorable to video data. Instead, we propose a
patch-wise solution, PS-NeRV, which represents videos as a function of patches
and the corresponding patch coordinate. It naturally inherits the advantages of
image-wise methods, and achieves excellent reconstruction performance with fast
decoding speed. The whole method includes conventional modules, like positional
embedding, MLPs and CNNs, while also introduces AdaIN to enhance intermediate
features. These simple yet essential changes could help the network easily fit
high-frequency details. Extensive experiments have demonstrated its
effectiveness in several video-related tasks, such as video compression and
video inpainting.
- Abstract(参考訳): 暗黙的ニューラル表現(INR)を用いたビデオの表現法について検討する。
古典的なINR法は一般的にMLPを用いて入力座標をマッピングしてピクセルを出力する。
最近の作品では画像全体をCNNで再構築しようと試みているものもある。
しかし,上述の画素戦略と画像戦略の両方がビデオデータには不適当であると主張する。
そこで本研究では,パッチの関数としてビデオを表現するps-nervを提案する。
画像ワイド手法の利点を自然に受け継ぎ、高速な復号速度で優れた復号性能を実現する。
メソッド全体は、位置埋め込み、MLP、CNNなどの従来のモジュールを含み、また中間機能を強化するためにAdaINも導入されている。
これらの単純な変更は、ネットワークを高周波の詳細に簡単に適合させるのに役立つだろう。
広範にわたる実験は、ビデオ圧縮やビデオインパインティングなどのビデオ関連タスクにおいて、その効果を実証している。
関連論文リスト
- Progressive Fourier Neural Representation for Sequential Video
Compilation [75.43041679717376]
連続学習によって動機づけられたこの研究は、シーケンシャルエンコーディングセッションを通じて、複数の複雑なビデオデータに対して、ニューラル暗黙表現を蓄積し、転送する方法を研究する。
本稿では,FFNR(Progressive Fourier Neural Representation)という,FFNR(Progressive Fourier Neural Representation)という,FFNR(Progressive Fourier Neural Representation)という手法を提案する。
我々は,UVG8/17とDAVIS50のビデオシーケンスベンチマークでPFNR法を検証し,強力な連続学習ベースラインよりも優れた性能向上を実現した。
論文 参考訳(メタデータ) (2023-06-20T06:02:19Z) - T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。
本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。
いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-12T04:10:42Z) - HNeRV: A Hybrid Neural Representation for Videos [56.492309149698606]
暗黙の神経表現は、動画をニューラルネットワークとして保存する。
ビデオ用ハイブリッドニューラル表現法(HNeRV)を提案する。
コンテンツ適応型埋め込みと再設計アーキテクチャにより、HNeRVはビデオレグレッションタスクにおいて暗黙のメソッドよりも優れる。
論文 参考訳(メタデータ) (2023-04-05T17:55:04Z) - Towards Scalable Neural Representation for Diverse Videos [68.73612099741956]
Inlicit Neural representations (INR)は、3Dシーンや画像の表現において注目を集めている。
既存のINRベースの手法は、冗長な視覚コンテンツを持つ短いビデオの符号化に限られている。
本稿では,多種多様な視覚コンテンツを持つ長編・多作ビデオの符号化のためのニューラル表現の開発に焦点をあてる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - FFNeRV: Flow-Guided Frame-Wise Neural Representations for Videos [5.958701846880935]
ビデオ中のフレーム間の時間的冗長性を利用するために,フロー情報をフレームワイズ表現に組み込む新しい手法であるFFNeRVを提案する。
モデル圧縮技術により、FFNeRVは広く使われている標準ビデオコーデック(H.264とHEVC)より優れ、最先端のビデオ圧縮アルゴリズムと同等に動作する。
論文 参考訳(メタデータ) (2022-12-23T12:51:42Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - NeRV: Neural Representations for Videos [36.00198388959609]
本稿では,ニューラルネット上で映像をエンコードするビデオ用ニューラル表現(NeRV)を提案する。
NeRVは単純にニューラルネットワークをビデオフレームに適合させ、デコード処理は単純なフィードフォワード操作である。
このような表現によって、ビデオはニューラルネットワークとして扱うことができ、複数のビデオ関連タスクを単純化できる。
論文 参考訳(メタデータ) (2021-10-26T17:56:23Z) - COIN: COmpression with Implicit Neural representations [64.02694714768691]
画像圧縮のための新しい簡易手法を提案する。
画像の各ピクセルのRGB値を格納する代わりに、画像に過度に適合したニューラルネットワークの重みを格納する。
論文 参考訳(メタデータ) (2021-03-03T10:58:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。