論文の概要: Efficient Convolution and Transformer-Based Network for Video Frame
Interpolation
- arxiv url: http://arxiv.org/abs/2307.06443v1
- Date: Wed, 12 Jul 2023 20:14:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-14 16:26:46.254509
- Title: Efficient Convolution and Transformer-Based Network for Video Frame
Interpolation
- Title(参考訳): ビデオフレーム補間のための効率的な畳み込みおよびトランスベースネットワーク
- Authors: Issa Khalifeh, Luka Murn, Marta Mrak and Ebroul Izquierdo
- Abstract要約: トランスエンコーダと畳み込み機能を組み合わせた新しい手法を提案する。
このネットワークは、メモリ負荷を50%近く削減し、推論時間中に最大4倍高速に動作させる。
局所相関のモデル化における畳み込みの強さと長距離依存のための変換器の強度を結合したデュアルエンコーダアーキテクチャが導入された。
- 参考スコア(独自算出の注目度): 11.036815066639473
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Video frame interpolation is an increasingly important research task with
several key industrial applications in the video coding, broadcast and
production sectors. Recently, transformers have been introduced to the field
resulting in substantial performance gains. However, this comes at a cost of
greatly increased memory usage, training and inference time. In this paper, a
novel method integrating a transformer encoder and convolutional features is
proposed. This network reduces the memory burden by close to 50% and runs up to
four times faster during inference time compared to existing transformer-based
interpolation methods. A dual-encoder architecture is introduced which combines
the strength of convolutions in modelling local correlations with those of the
transformer for long-range dependencies. Quantitative evaluations are conducted
on various benchmarks with complex motion to showcase the robustness of the
proposed method, achieving competitive performance compared to state-of-the-art
interpolation networks.
- Abstract(参考訳): ビデオフレーム補間は、ビデオコーディング、放送、および生産分野におけるいくつかの重要な産業的応用において、ますます重要な研究課題となっている。
近年,変圧器が現場に導入され,性能が大幅に向上した。
しかし、これはメモリ使用量、トレーニング、推論時間を大幅に増加させるコストが伴う。
本稿では、トランスエンコーダと畳み込み特徴を統合する新しい手法を提案する。
このネットワークは、既存のトランスフォーマーベースの補間法と比較して、50%近いメモリ負荷を削減し、推論時間で最大4倍高速に動作させる。
局所相関のモデル化における畳み込みの強みと長距離依存のトランスフォーマの強みを組み合わせたデュアルエンコーダアーキテクチャが導入された。
提案手法のロバスト性を示すために, 複雑な動作を持つ様々なベンチマークを用いて定量的評価を行い, 現状の補間ネットワークと比較して, 競争性能が向上した。
関連論文リスト
- Efficient Encoder-Decoder Transformer Decoding for Decomposable Tasks [53.550782959908524]
エンコーダ・デコーダモデルのための新しい構成を導入し、構造化された出力と分解可能なタスクの効率を改善する。
提案手法は,インプットを一度エンコードして並列にデコードすることで,トレーニングと推論の効率を向上する。
論文 参考訳(メタデータ) (2024-03-19T19:27:23Z) - Transformer-based Video Saliency Prediction with High Temporal Dimension
Decoding [12.595019348741042]
本稿では,高テンポラル次元ネットワークデコーディング(THTDNet)を用いたトランスフォーマに基づくビデオサリエンシ予測手法を提案する。
このアーキテクチャは、DHF1KやUCFスポーツ、ハリウッド-2といった一般的なベンチマークで、マルチブランチや過剰に複雑なモデルに匹敵する性能が得られる。
論文 参考訳(メタデータ) (2024-01-15T20:09:56Z) - AICT: An Adaptive Image Compression Transformer [18.05997169440533]
我々は、より単純で効果的なTranformerベースのチャネルワイド自動回帰事前モデルを提案し、絶対画像圧縮変換器(ICT)を実現する。
提案したICTは、潜在表現からグローバルとローカルの両方のコンテキストをキャプチャできる。
我々は、サンドイッチのConvNeXtベースのプリ/ポストプロセッサで学習可能なスケーリングモジュールを活用し、よりコンパクトな潜在表現を正確に抽出する。
論文 参考訳(メタデータ) (2023-07-12T11:32:02Z) - AMT: All-Pairs Multi-Field Transforms for Efficient Frame Interpolation [80.33846577924363]
ビデオフレームギスブのための新しいネットワークアーキテクチャであるAMT(All-Pairs Multi-Field Transforms)を提案する。
まず、すべての画素に対して双方向のボリュームを構築し、予測された両側フローを用いて相関関係を検索する。
第2に、入力フレーム上で逆向きのワープを行うために、一対の更新された粗い流れから細粒度の流れ場の複数のグループを導出する。
論文 参考訳(メタデータ) (2023-04-19T16:18:47Z) - End-to-end Transformer for Compressed Video Quality Enhancement [21.967066471073462]
本稿では,Swin-AutoEncoderをベースとしたSpatio-Temporal Feature Fusion(SSTF)モジュールとChannel-wise Attention based Quality Enhancement(CAQE)モジュールからなる,トランスフォーマーベースの圧縮ビデオ品質向上(TVQE)手法を提案する。
提案手法は,推定速度とGPU消費の両方の観点から既存手法より優れている。
論文 参考訳(メタデータ) (2022-10-25T08:12:05Z) - Video Frame Interpolation with Transformer [55.12620857638253]
本稿では,ビデオフレーム間の長距離画素相関をモデル化するためにTransformerを利用した新しいフレームワークを提案する。
我々のネットワークは、クロススケールウィンドウが相互に相互作用する新しいウィンドウベースのアテンション機構を備えている。
論文 参考訳(メタデータ) (2022-05-15T09:30:28Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。
グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。
さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文 参考訳(メタデータ) (2021-11-27T05:35:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。