論文の概要: Cross-Attention Transformer for Video Interpolation
- arxiv url: http://arxiv.org/abs/2207.04132v1
- Date: Fri, 8 Jul 2022 21:38:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-12 14:29:58.339508
- Title: Cross-Attention Transformer for Video Interpolation
- Title(参考訳): 映像補間用クロスアテンショントランス
- Authors: Hannah Halin Kim, Shuzhi Yu, Shuai Yuan, Carlo Tomasi
- Abstract要約: TAIN (Transformers and Attention for video Interpolation) は、2つの連続した画像フレームが配置された中間フレームを補間することを目的としている。
最初に、予測フレームと類似した外観の入力画像特徴をグローバルに集約するために、CS(Cross-Similarity)と呼ばれる新しいビジュアルトランスフォーマーモジュールを提示する。
CS特徴の排他性を考慮し,一方のフレームから他方のフレーム上のCS特徴に焦点を合わせるためのイメージアテンション(IA)モジュールを提案する。
- 参考スコア(独自算出の注目度): 3.5317804902980527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose TAIN (Transformers and Attention for video INterpolation), a
residual neural network for video interpolation, which aims to interpolate an
intermediate frame given two consecutive image frames around it. We first
present a novel visual transformer module, named Cross-Similarity (CS), to
globally aggregate input image features with similar appearance as those of the
predicted interpolated frame. These CS features are then used to refine the
interpolated prediction. To account for occlusions in the CS features, we
propose an Image Attention (IA) module to allow the network to focus on CS
features from one frame over those of the other. Additionally, we augment our
training dataset with an occluder patch that moves across frames to improve the
network's robustness to occlusions and large motion. Because existing methods
yield smooth predictions especially near MBs, we use an additional training
loss based on image gradient to yield sharper predictions. TAIN outperforms
existing methods that do not require flow estimation and performs comparably to
flow-based methods while being computationally efficient in terms of inference
time on Vimeo90k, UCF101, and SNU-FILM benchmarks.
- Abstract(参考訳): 本研究では,映像補間のための残留ニューラルネットワークであるtain(transformers and attention for video interpolation)を提案する。
まず,予測補間フレームに類似した外観の入力画像特徴をグローバルに集約するために,CS (Cross-Similarity) と呼ばれる新しいビジュアルトランスフォーマーモジュールを提案する。
これらのCS機能は補間予測を洗練するために使用される。
CS特徴の排他性を考慮し,一方のフレームから他方のフレーム上のCS特徴に焦点を合わせるためのイメージアテンション(IA)モジュールを提案する。
さらに,occluderパッチでトレーニングデータセットを強化し,フレーム間を移動することで,ネットワークのオクルージョンや大きな動きに対するロバスト性を向上させる。
既存の手法では特にMB近傍でスムーズな予測を行うため,画像勾配に基づくトレーニング損失を付加し,よりシャープな予測を行う。
TAINは、フロー推定を必要としない既存の手法より優れており、Vimeo90k、UCF101、SNU-FILMベンチマークでの推論時間の観点から計算効率が良い。
関連論文リスト
- ViBiDSampler: Enhancing Video Interpolation Using Bidirectional Diffusion Sampler [53.98558445900626]
現在の画像とビデオの拡散モデルは、単一のフレームからビデオを生成するのに強力だが、2フレーム条件付き生成に適応する必要がある。
我々は,これらのオフマンド問題に対処するために,広範囲な再ノイズや微調整を必要とせずに,新しい双方向サンプリング戦略を導入する。
提案手法では,それぞれ開始フレームと終了フレームに条件付き前方経路と後方経路の両方に沿って逐次サンプリングを行い,中間フレームの整合性を確保した。
論文 参考訳(メタデータ) (2024-10-08T03:01:54Z) - Motion-Aware Video Frame Interpolation [49.49668436390514]
我々は、連続するフレームから中間光の流れを直接推定する動き対応ビデオフレーム補間(MA-VFI)ネットワークを導入する。
受容場が異なる入力フレームからグローバルな意味関係と空間的詳細を抽出するだけでなく、必要な計算コストと複雑さを効果的に削減する。
論文 参考訳(メタデータ) (2024-02-05T11:00:14Z) - Corner-to-Center Long-range Context Model for Efficient Learned Image
Compression [70.0411436929495]
学習された画像圧縮のフレームワークでは、コンテキストモデルは潜在表現間の依存関係をキャプチャする上で重要な役割を果たす。
本研究では,textbfCorner-to-Center 変換器を用いたコンテキストモデル (C$3$M) を提案する。
また,解析および合成変換における受容場を拡大するために,エンコーダ/デコーダのLong-range Crossing Attention Module (LCAM) を用いる。
論文 参考訳(メタデータ) (2023-11-29T21:40:28Z) - Dynamic Frame Interpolation in Wavelet Domain [57.25341639095404]
ビデオフレームは、より流動的な視覚体験のためにフレームレートを上げることができる、重要な低レベルな計算ビジョンタスクである。
既存の手法は、高度なモーションモデルと合成ネットワークを利用することで大きな成功を収めた。
WaveletVFIは、同様の精度を維持しながら最大40%の計算を削減できるため、他の最先端技術に対してより効率的に処理できる。
論文 参考訳(メタデータ) (2023-09-07T06:41:15Z) - IDO-VFI: Identifying Dynamics via Optical Flow Guidance for Video Frame
Interpolation with Events [14.098949778274733]
イベントカメラは、フレーム間のダイナミクスを極めて高い時間分解能で捉えるのに最適である。
IDO-VFIというイベント・アンド・フレームベースのビデオフレーム方式を提案する。
提案手法は,Vimeo90Kデータセット上での計算時間と計算労力をそれぞれ10%と17%削減しつつ,高品質な性能を維持する。
論文 参考訳(メタデータ) (2023-05-17T13:22:21Z) - Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。
グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。
さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文 参考訳(メタデータ) (2021-11-27T05:35:10Z) - RAI-Net: Range-Adaptive LiDAR Point Cloud Frame Interpolation Network [5.225160072036824]
捕捉されたフレーム間の中間フレームを合成するLiDARポイントクラウドフレームは、多くのアプリケーションにおいて重要な問題となっている。
本稿では,CNNとの中間表現として範囲画像(RI)を利用してフレーム処理を行う,新しいLiDARポイントクラウド光フレーム法を提案する。
提案手法は,最新の映像フレーム方式よりも知覚的品質の優れたフレームを連続的に実現している。
論文 参考訳(メタデータ) (2021-06-01T13:59:08Z) - EA-Net: Edge-Aware Network for Flow-based Video Frame Interpolation [101.75999290175412]
補間フレーム内のエッジを保存することにより,画像のぼかしを低減し,オブジェクトの明確な形状を得る。
提案するエッジアウェアネットワーク(eanet)は、エッジ情報をフレームタスクに統合する。
フローマップの推定において,フレームエッジを強調する3つのエッジアウェア機構が開発されている。
論文 参考訳(メタデータ) (2021-05-17T08:44:34Z) - Frame-rate Up-conversion Detection Based on Convolutional Neural Network
for Learning Spatiotemporal Features [7.895528973776606]
本稿では、FRUCによる法医学的特徴をエンドツーエンドに学習するフレームレート変換検出ネットワーク(FCDNet)を提案する。
FCDNetは連続するフレームのスタックを入力として使用し、ネットワークブロックを使ってアーティファクトを効果的に学習して特徴を学習する。
論文 参考訳(メタデータ) (2021-03-25T08:47:46Z) - Deep Learning for Robust Motion Segmentation with Non-Static Cameras [0.0]
本論文では,MOSNET と呼ばれる非静的なカメラで撮影するモーションセグメンテーションのための新たな DCNN ベースのアプローチを提案する。
他のアプローチは空間的または時間的文脈に焦点を当てているが、提案手法は3d畳み込みをビデオフレームの時間的特徴を分解する重要な技術として用いる。
このネットワークは、シーン中に画像コンテンツが大幅に変化する静電カメラで撮影されたシーンでうまく機能します。
論文 参考訳(メタデータ) (2021-02-22T11:58:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。