論文の概要: AMT: All-Pairs Multi-Field Transforms for Efficient Frame Interpolation
- arxiv url: http://arxiv.org/abs/2304.09790v1
- Date: Wed, 19 Apr 2023 16:18:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-20 13:34:55.294345
- Title: AMT: All-Pairs Multi-Field Transforms for Efficient Frame Interpolation
- Title(参考訳): AMT:効率的なフレーム補間のための全ペアマルチフィールド変換
- Authors: Zhen Li, Zuo-Liang Zhu, Ling-Hao Han, Qibin Hou, Chun-Le Guo,
Ming-Ming Cheng
- Abstract要約: ビデオフレームギスブのための新しいネットワークアーキテクチャであるAMT(All-Pairs Multi-Field Transforms)を提案する。
まず、すべての画素に対して双方向のボリュームを構築し、予測された両側フローを用いて相関関係を検索する。
第2に、入力フレーム上で逆向きのワープを行うために、一対の更新された粗い流れから細粒度の流れ場の複数のグループを導出する。
- 参考スコア(独自算出の注目度): 80.33846577924363
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present All-Pairs Multi-Field Transforms (AMT), a new network architecture
for video frame interpolation. It is based on two essential designs. First, we
build bidirectional correlation volumes for all pairs of pixels, and use the
predicted bilateral flows to retrieve correlations for updating both flows and
the interpolated content feature. Second, we derive multiple groups of
fine-grained flow fields from one pair of updated coarse flows for performing
backward warping on the input frames separately. Combining these two designs
enables us to generate promising task-oriented flows and reduce the
difficulties in modeling large motions and handling occluded areas during frame
interpolation. These qualities promote our model to achieve state-of-the-art
performance on various benchmarks with high efficiency. Moreover, our
convolution-based model competes favorably compared to Transformer-based models
in terms of accuracy and efficiency. Our code is available at
https://github.com/MCG-NKU/AMT.
- Abstract(参考訳): ビデオフレーム補間のための新しいネットワークアーキテクチャであるAMT(All-Pairs Multi-Field Transforms)を提案する。
2つの基本設計に基づいている。
まず,全画素対の双方向相関ボリュームを構築し,予測した双方向フローを用いて,フローと補間コンテンツ機能の両方を更新する相関関係を検索する。
第2に, 1組の更新粗い流れから細粒度流れの複数の群を導出し, 入力フレームを別々に逆回転させる。
これら2つの設計を組み合わせることで、有望なタスク指向フローを生成し、フレーム補間時の大きな動きのモデル化や隠蔽領域の処理の難しさを軽減することができる。
これらの品質は,様々なベンチマークにおける最先端のパフォーマンスを高効率で達成するモデルを促進する。
さらに, コンボリューションモデルとトランスフォーマーモデルでは, 精度と効率の面で有利に競合している。
私たちのコードはhttps://github.com/mcg-nku/amtで利用可能です。
関連論文リスト
- Perceiving Longer Sequences With Bi-Directional Cross-Attention Transformers [13.480259378415505]
BiXTは、計算コストとメモリ消費の観点から、入力サイズと線形にスケールする。
BiXTはPerceiverアーキテクチャにインスパイアされているが、反復的な注意を効率よく双方向のクロスアテンションモジュールに置き換える。
効率性とフルトランスフォーマーアーキテクチャの汎用性と性能を組み合わせることで、BiXTはより長いシーケンスを処理できる。
論文 参考訳(メタデータ) (2024-02-19T13:38:15Z) - JAX-Fluids 2.0: Towards HPC for Differentiable CFD of Compressible
Two-phase Flows [0.0]
JAX-Fluidsは、圧縮可能な単相および二相フロー用に設計されたPythonベースの完全微分可能CFDソルバである。
我々は、GPU(NVIDIA A100グラフィックスカード最大512)とTPU(最大1024 TPU v3コア)のHPCシステム上で効率よくスケールするJAXプリミティブ演算を利用した並列化戦略を導入する。
新しいコードバージョンは、強化された2相フローモデリング機能を提供する。
論文 参考訳(メタデータ) (2024-02-07T19:05:27Z) - Motion-Aware Video Frame Interpolation [49.49668436390514]
我々は、連続するフレームから中間光の流れを直接推定する動き対応ビデオフレーム補間(MA-VFI)ネットワークを導入する。
受容場が異なる入力フレームからグローバルな意味関係と空間的詳細を抽出するだけでなく、必要な計算コストと複雑さを効果的に削減する。
論文 参考訳(メタデータ) (2024-02-05T11:00:14Z) - Video Frame Interpolation with Many-to-many Splatting and Spatial
Selective Refinement [83.60486465697318]
本稿では,フレームを効率的に補間するM2Mスプレイティングフレームワークを提案する。
入力フレームペアごとに、M2Mは任意の数のフレーム間を補間する際の計算オーバーヘッドが極小である。
フレキシブルな空間選択リファインメント(Spatial Selective Refinement)コンポーネントを導入して,M2M++フレームワークを拡張した。
論文 参考訳(メタデータ) (2023-10-29T09:09:32Z) - On Optimizing the Communication of Model Parallelism [74.15423270435949]
大規模モデル並列ディープラーニング(DL)における新しい重要なコミュニケーションパターンについて検討する。
クロスメッシュリシャーディングでは、シャードテンソルをソースデバイスメッシュから宛先デバイスメッシュに送信する必要がある。
本稿では、効率的な放送ベースの通信システムと「重複しやすい」パイプラインスケジュールという、クロスメシュ・リシャーディングに対処するための2つのコントリビューションを提案する。
論文 参考訳(メタデータ) (2022-11-10T03:56:48Z) - Sparsity-guided Network Design for Frame Interpolation [39.828644638174225]
フレームベースアルゴリズムのための圧縮駆動型ネットワーク設計を提案する。
モデルサイズを大幅に削減するために、スパーシリティ誘導最適化によるモデルプルーニングを活用する。
原型AdaCoFの4分の1の大きさで大幅な性能向上を実現しています。
論文 参考訳(メタデータ) (2022-09-09T23:13:25Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Spatio-Temporal Multi-Flow Network for Video Frame Interpolation [3.6053802212032995]
ビデオフレーム(VFI)は、コンピュータビジョン、ポストプロダクション、ビデオエンコーディングなど、非常に活発な研究トピックである。
本稿では,時空間マルチフローアーキテクチャに基づく新しい深層学習型VFI手法ST-MFNetを提案する。
論文 参考訳(メタデータ) (2021-11-30T15:18:46Z) - DeMFI: Deep Joint Deblurring and Multi-Frame Interpolation with
Flow-Guided Attentive Correlation and Recursive Boosting [50.17500790309477]
DeMFI-Netは、共同でデブロアリングとマルチフレームのフレームワークである。
低フレームレートのぼやけたビデオを高フレームレートでシャープなビデオに変換する。
多様なデータセットに対して、最先端(SOTA)のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-11-19T00:00:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。