論文の概要: NIO: Lightweight neural operator-based architecture for video frame
interpolation
- arxiv url: http://arxiv.org/abs/2211.10791v1
- Date: Sat, 19 Nov 2022 20:30:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 20:05:05.271657
- Title: NIO: Lightweight neural operator-based architecture for video frame
interpolation
- Title(参考訳): NIO:ビデオフレーム補間のための軽量ニューラルネットワークアーキテクチャ
- Authors: Hrishikesh Viswanath, Md Ashiqur Rahman, Rashmi Bhaskara, Aniket Bera
- Abstract要約: NIOは、ビデオフレーム・バイ・フレーム学習を実行するための軽量で効率的なニューラル演算子ベースのアーキテクチャである。
我々は、NIOが視覚的に滑らかで正確な結果を生成でき、最先端のアプローチよりもエポックに収束することが示している。
- 参考スコア(独自算出の注目度): 15.875579519177487
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We present, NIO - Neural Interpolation Operator, a lightweight efficient
neural operator-based architecture to perform video frame interpolation.
Current deep learning based methods rely on local convolutions for feature
learning and require a large amount of training on comprehensive datasets.
Furthermore, transformer-based architectures are large and need dedicated GPUs
for training. On the other hand, NIO, our neural operator-based approach learns
the features in the frames by translating the image matrix into the Fourier
space by using Fast Fourier Transform (FFT). The model performs global
convolution, making it discretization invariant. We show that NIO can produce
visually-smooth and accurate results and converges in fewer epochs than
state-of-the-art approaches. To evaluate the visual quality of our interpolated
frames, we calculate the structural similarity index (SSIM) and Peak Signal to
Noise Ratio (PSNR) between the generated frame and the ground truth frame. We
provide the quantitative performance of our model on Vimeo-90K dataset, DAVIS,
UCF101 and DISFA+ dataset.
- Abstract(参考訳): NIO-Neural Interpolation Operatorは,ビデオフレーム補間を行うための,軽量で効率的なニューラル演算子ベースのアーキテクチャである。
現在のディープラーニングベースの方法は、機能学習のための局所畳み込みに依存しており、包括的なデータセットで大量のトレーニングを必要とする。
さらに、トランスフォーマーベースのアーキテクチャは大規模で、トレーニング用に専用のGPUが必要です。
一方,我々のニューラル演算子に基づくアプローチであるnioは,高速フーリエ変換(fft)を用いて画像行列をフーリエ空間に変換することで,フレームの特徴を学習する。
このモデルはグローバルな畳み込みを行い、離散化は不変である。
我々は、NIOが視覚的に滑らかで正確な結果を生成でき、最先端のアプローチよりもエポックに収束することを示す。
補間フレームの視覚的品質を評価するために、生成されたフレームと地上の真理フレームとの間の構造類似度指数(SSIM)とピーク信号とノイズ比(PSNR)を算出する。
本稿では,Vimeo-90Kデータセット,DAVIS,UCF101,DisFA+データセットの定量的性能について述べる。
関連論文リスト
- How to Train Neural Field Representations: A Comprehensive Study and
Benchmark [31.21629569772885]
$verb|fit-a-nef|$は、大規模ニューラルネットワークの高速な最適化を実現するために並列化を利用するJAXベースのライブラリである。
下流タスクに対するNeFの適合性に対する異なるハイパーパラメータの影響について検討する。
本稿では、一般的な視覚データセットのニューラルネットワーク変種からなるベンチマークであるNeural Field Arenaを提案する。
論文 参考訳(メタデータ) (2023-12-16T20:10:23Z) - Video Dynamics Prior: An Internal Learning Approach for Robust Video
Enhancements [83.5820690348833]
外部トレーニングデータコーパスを必要としない低レベルの視覚タスクのためのフレームワークを提案する。
提案手法は,コヒーレンス・時間的テストの重み付けと統計内部統計を利用して,破損したシーケンスを最適化することでニューラルモジュールを学習する。
論文 参考訳(メタデータ) (2023-12-13T01:57:11Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - NAR-Former: Neural Architecture Representation Learning towards Holistic
Attributes Prediction [37.357949900603295]
本稿では,属性の全体的推定に使用できるニューラルネットワーク表現モデルを提案する。
実験の結果,提案するフレームワークは,セルアーキテクチャとディープニューラルネットワーク全体の遅延特性と精度特性を予測できることがわかった。
論文 参考訳(メタデータ) (2022-11-15T10:15:21Z) - Neural Attentive Circuits [93.95502541529115]
我々は、NAC(Neural Attentive Circuits)と呼ばれる汎用的でモジュラーなニューラルアーキテクチャを導入する。
NACは、ドメイン知識を使わずに、ニューラルネットワークモジュールのパラメータ化と疎結合を学習する。
NACは推論時に8倍のスピードアップを達成するが、性能は3%以下である。
論文 参考訳(メタデータ) (2022-10-14T18:00:07Z) - Cross-Attention Transformer for Video Interpolation [3.5317804902980527]
TAIN (Transformers and Attention for video Interpolation) は、2つの連続した画像フレームが配置された中間フレームを補間することを目的としている。
最初に、予測フレームと類似した外観の入力画像特徴をグローバルに集約するために、CS(Cross-Similarity)と呼ばれる新しいビジュアルトランスフォーマーモジュールを提示する。
CS特徴の排他性を考慮し,一方のフレームから他方のフレーム上のCS特徴に焦点を合わせるためのイメージアテンション(IA)モジュールを提案する。
論文 参考訳(メタデータ) (2022-07-08T21:38:54Z) - SUMD: Super U-shaped Matrix Decomposition Convolutional neural network
for Image denoising [0.0]
ネットワークに行列分解モジュール(MD)を導入し,グローバルなコンテキスト機能を確立する。
U字型アーキテクチャの多段階的プログレッシブ復元の設計に触発されて,MDモジュールをマルチブランチに統合する。
我々のモデル(SUMD)は、Transformerベースの手法で、同等の視覚的品質と精度が得られる。
論文 参考訳(メタデータ) (2022-04-11T04:38:34Z) - An Efficient Pattern Mining Convolution Neural Network (CNN) algorithm
with Grey Wolf Optimization (GWO) [0.0]
本稿では,CPWT(Convoluted Pattern of Wavelet Transform)特徴ベクトルに基づくCNNを用いた特徴解析手法を提案する。
従来の最先端手法と比較することにより,提案手法の性能を検証することができる。
論文 参考訳(メタデータ) (2022-04-10T15:18:42Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Functional Regularization for Reinforcement Learning via Learned Fourier
Features [98.90474131452588]
本稿では、入力を学習されたフーリエベースに埋め込むことにより、深層強化学習のための簡単なアーキテクチャを提案する。
その結果、状態ベースと画像ベースの両方のRLのサンプル効率が向上することがわかった。
論文 参考訳(メタデータ) (2021-12-06T18:59:52Z) - A Semi-Supervised Assessor of Neural Architectures [157.76189339451565]
我々は、ニューラルネットワークの有意義な表現を見つけるためにオートエンコーダを用いる。
アーキテクチャの性能を予測するために、グラフ畳み込みニューラルネットワークを導入する。
論文 参考訳(メタデータ) (2020-05-14T09:02:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。