論文の概要: NIO: Lightweight neural operator-based architecture for video frame
interpolation
- arxiv url: http://arxiv.org/abs/2211.10791v1
- Date: Sat, 19 Nov 2022 20:30:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 20:05:05.271657
- Title: NIO: Lightweight neural operator-based architecture for video frame
interpolation
- Title(参考訳): NIO:ビデオフレーム補間のための軽量ニューラルネットワークアーキテクチャ
- Authors: Hrishikesh Viswanath, Md Ashiqur Rahman, Rashmi Bhaskara, Aniket Bera
- Abstract要約: NIOは、ビデオフレーム・バイ・フレーム学習を実行するための軽量で効率的なニューラル演算子ベースのアーキテクチャである。
我々は、NIOが視覚的に滑らかで正確な結果を生成でき、最先端のアプローチよりもエポックに収束することが示している。
- 参考スコア(独自算出の注目度): 15.875579519177487
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We present, NIO - Neural Interpolation Operator, a lightweight efficient
neural operator-based architecture to perform video frame interpolation.
Current deep learning based methods rely on local convolutions for feature
learning and require a large amount of training on comprehensive datasets.
Furthermore, transformer-based architectures are large and need dedicated GPUs
for training. On the other hand, NIO, our neural operator-based approach learns
the features in the frames by translating the image matrix into the Fourier
space by using Fast Fourier Transform (FFT). The model performs global
convolution, making it discretization invariant. We show that NIO can produce
visually-smooth and accurate results and converges in fewer epochs than
state-of-the-art approaches. To evaluate the visual quality of our interpolated
frames, we calculate the structural similarity index (SSIM) and Peak Signal to
Noise Ratio (PSNR) between the generated frame and the ground truth frame. We
provide the quantitative performance of our model on Vimeo-90K dataset, DAVIS,
UCF101 and DISFA+ dataset.
- Abstract(参考訳): NIO-Neural Interpolation Operatorは,ビデオフレーム補間を行うための,軽量で効率的なニューラル演算子ベースのアーキテクチャである。
現在のディープラーニングベースの方法は、機能学習のための局所畳み込みに依存しており、包括的なデータセットで大量のトレーニングを必要とする。
さらに、トランスフォーマーベースのアーキテクチャは大規模で、トレーニング用に専用のGPUが必要です。
一方,我々のニューラル演算子に基づくアプローチであるnioは,高速フーリエ変換(fft)を用いて画像行列をフーリエ空間に変換することで,フレームの特徴を学習する。
このモデルはグローバルな畳み込みを行い、離散化は不変である。
我々は、NIOが視覚的に滑らかで正確な結果を生成でき、最先端のアプローチよりもエポックに収束することを示す。
補間フレームの視覚的品質を評価するために、生成されたフレームと地上の真理フレームとの間の構造類似度指数(SSIM)とピーク信号とノイズ比(PSNR)を算出する。
本稿では,Vimeo-90Kデータセット,DAVIS,UCF101,DisFA+データセットの定量的性能について述べる。
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - LeRF: Learning Resampling Function for Adaptive and Efficient Image Interpolation [64.34935748707673]
最近のディープニューラルネットワーク(DNN)は、学習データ前処理を導入することで、パフォーマンスを著しく向上させた。
本稿では,DNNが学習した構造的前提と局所的連続仮定の両方を活かした学習再サンプリング(Learning Resampling, LeRF)を提案する。
LeRFは空間的に異なる再サンプリング関数を入力画像ピクセルに割り当て、ニューラルネットワークを用いてこれらの再サンプリング関数の形状を予測する。
論文 参考訳(メタデータ) (2024-07-13T16:09:45Z) - fVDB: A Deep-Learning Framework for Sparse, Large-Scale, and High-Performance Spatial Intelligence [50.417261057533786]
fVDBは、大規模な3Dデータのディープラーニングのための新しいフレームワークである。
私たちのフレームワークは、既存のパイプラインとの相互運用性を可能にするPyTorchと完全に統合されています。
論文 参考訳(メタデータ) (2024-07-01T20:20:33Z) - TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - NAR-Former: Neural Architecture Representation Learning towards Holistic
Attributes Prediction [37.357949900603295]
本稿では,属性の全体的推定に使用できるニューラルネットワーク表現モデルを提案する。
実験の結果,提案するフレームワークは,セルアーキテクチャとディープニューラルネットワーク全体の遅延特性と精度特性を予測できることがわかった。
論文 参考訳(メタデータ) (2022-11-15T10:15:21Z) - Cross-Attention Transformer for Video Interpolation [3.5317804902980527]
TAIN (Transformers and Attention for video Interpolation) は、2つの連続した画像フレームが配置された中間フレームを補間することを目的としている。
最初に、予測フレームと類似した外観の入力画像特徴をグローバルに集約するために、CS(Cross-Similarity)と呼ばれる新しいビジュアルトランスフォーマーモジュールを提示する。
CS特徴の排他性を考慮し,一方のフレームから他方のフレーム上のCS特徴に焦点を合わせるためのイメージアテンション(IA)モジュールを提案する。
論文 参考訳(メタデータ) (2022-07-08T21:38:54Z) - SUMD: Super U-shaped Matrix Decomposition Convolutional neural network
for Image denoising [0.0]
ネットワークに行列分解モジュール(MD)を導入し,グローバルなコンテキスト機能を確立する。
U字型アーキテクチャの多段階的プログレッシブ復元の設計に触発されて,MDモジュールをマルチブランチに統合する。
我々のモデル(SUMD)は、Transformerベースの手法で、同等の視覚的品質と精度が得られる。
論文 参考訳(メタデータ) (2022-04-11T04:38:34Z) - An Efficient Pattern Mining Convolution Neural Network (CNN) algorithm
with Grey Wolf Optimization (GWO) [0.0]
本稿では,CPWT(Convoluted Pattern of Wavelet Transform)特徴ベクトルに基づくCNNを用いた特徴解析手法を提案する。
従来の最先端手法と比較することにより,提案手法の性能を検証することができる。
論文 参考訳(メタデータ) (2022-04-10T15:18:42Z) - A Semi-Supervised Assessor of Neural Architectures [157.76189339451565]
我々は、ニューラルネットワークの有意義な表現を見つけるためにオートエンコーダを用いる。
アーキテクチャの性能を予測するために、グラフ畳み込みニューラルネットワークを導入する。
論文 参考訳(メタデータ) (2020-05-14T09:02:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。