論文の概要: Efficient Feature Extraction for High-resolution Video Frame
Interpolation
- arxiv url: http://arxiv.org/abs/2211.14005v1
- Date: Fri, 25 Nov 2022 10:21:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 17:14:06.194907
- Title: Efficient Feature Extraction for High-resolution Video Frame
Interpolation
- Title(参考訳): 高分解能ビデオフレーム補間のための効率的な特徴抽出
- Authors: Moritz Nottebaum, Stefan Roth and Simone Schaub-Meyer
- Abstract要約: フレームに適した抽出情報を保持しつつ, 入力表現を圧縮するために, 軽量な計算がいかに使用できるかを示す。
我々は,ネットワークの複雑さとメモリ要件を全体として低く抑えながら,事前学習を行なわない手法において,最先端の画像品質を実現する。
- 参考スコア(独自算出の注目度): 15.073405675079558
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most deep learning methods for video frame interpolation consist of three
main components: feature extraction, motion estimation, and image synthesis.
Existing approaches are mainly distinguishable in terms of how these modules
are designed. However, when interpolating high-resolution images, e.g. at 4K,
the design choices for achieving high accuracy within reasonable memory
requirements are limited. The feature extraction layers help to compress the
input and extract relevant information for the latter stages, such as motion
estimation. However, these layers are often costly in parameters, computation
time, and memory. We show how ideas from dimensionality reduction combined with
a lightweight optimization can be used to compress the input representation
while keeping the extracted information suitable for frame interpolation.
Further, we require neither a pretrained flow network nor a synthesis network,
additionally reducing the number of trainable parameters and required memory.
When evaluating on three 4K benchmarks, we achieve state-of-the-art image
quality among the methods without pretrained flow while having the lowest
network complexity and memory requirements overall.
- Abstract(参考訳): ビデオフレーム補間のための多くの深層学習手法は、特徴抽出、動き推定、画像合成の3つの主要構成要素で構成されている。
既存のアプローチは主にこれらのモジュールをどのように設計するかという点で区別できる。
しかし、例えば4kで高解像度画像を補間する場合、適切なメモリ要件で高い精度を達成するための設計選択は限られている。
特徴抽出層は、入力を圧縮し、動き推定などの後半段階に関連する情報を抽出するのに役立つ。
しかし、これらの層は、しばしばパラメータ、計算時間、メモリでコストがかかる。
フレーム補間に適した抽出情報を保持しつつ, 次元削減と軽量な最適化を併用して, 入力表現を圧縮する方法を示す。
さらに、事前訓練されたフローネットワークも合成ネットワークも必要とせず、トレーニング可能なパラメータの数と必要なメモリを減らす。
3つの4Kベンチマークで評価すると、ネットワークの複雑さとメモリの要求が全体として最小でありながら、事前学習のない方法で最先端の画像品質が得られる。
関連論文リスト
- A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Differentiable Resolution Compression and Alignment for Efficient Video
Classification and Retrieval [16.497758750494537]
本稿では,高解像度圧縮・アライメント機構を備えた効率的な映像表現ネットワークを提案する。
我々は、相性および非相性フレーム特徴を符号化するために、微分可能なコンテキスト対応圧縮モジュールを利用する。
我々は,異なる解像度のフレーム特徴間のグローバル時間相関を捉えるために,新しい解像度変換器層を導入する。
論文 参考訳(メタデータ) (2023-09-15T05:31:53Z) - Dynamic Frame Interpolation in Wavelet Domain [57.25341639095404]
ビデオフレームは、より流動的な視覚体験のためにフレームレートを上げることができる、重要な低レベルな計算ビジョンタスクである。
既存の手法は、高度なモーションモデルと合成ネットワークを利用することで大きな成功を収めた。
WaveletVFIは、同様の精度を維持しながら最大40%の計算を削減できるため、他の最先端技術に対してより効率的に処理できる。
論文 参考訳(メタデータ) (2023-09-07T06:41:15Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - CUF: Continuous Upsampling Filters [25.584630142930123]
本稿では,画像処理における最も重要な操作の一つとして,アップサンプリングについて考察する。
本稿では、アップサンプリングカーネルをニューラルネットワークとしてパラメータ化することを提案する。
このパラメータ化により、競合する任意のスケールの超解像アーキテクチャと比較して40倍のパラメータ数の削減が得られる。
論文 参考訳(メタデータ) (2022-10-13T12:45:51Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - Displacement-Invariant Cost Computation for Efficient Stereo Matching [122.94051630000934]
ディープラーニング手法は、前例のない不一致の精度を得ることによって、ステレオマッチングのリーダーボードを支配してきた。
しかし、その推測時間は一般的に540p画像の秒数で遅い。
本研究では,4次元特徴量を必要としないEmphdisplacement-invariant cost moduleを提案する。
論文 参考訳(メタデータ) (2020-12-01T23:58:16Z) - Perceptron Synthesis Network: Rethinking the Action Scale Variances in
Videos [48.57686258913474]
ビデオアクション認識は、固定サイズの3Dカーネルを積み重ねたCNNによって部分的に解決されている。
データから最適なスケールのカーネルを学習することを提案する。
固定サイズのカーネルの袋からカーネルを生成するために,テキスト分割パーセプトロンシンセサイザーを提案する。
論文 参考訳(メタデータ) (2020-07-22T14:22:29Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。