論文の概要: E-VFIA : Event-Based Video Frame Interpolation with Attention
- arxiv url: http://arxiv.org/abs/2209.09359v1
- Date: Mon, 19 Sep 2022 21:40:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 18:27:31.244145
- Title: E-VFIA : Event-Based Video Frame Interpolation with Attention
- Title(参考訳): E-VFIA : 注意を伴うイベントベースビデオフレーム補間
- Authors: Onur Selim K{\i}l{\i}\c{c}, Ahmet Akman and A. Ayd{\i}n Alatan
- Abstract要約: 軽量カーネルベース手法として,注目度の高いイベントベースビデオフレーム(E-VFIA)を提案する。
E-VFIAは、イベント情報を変形可能な畳み込みによって標準的なビデオフレームと融合し、高品質な補間フレームを生成する。
提案手法は、時間分解能の高いイベントを表現し、イベントベース情報をよりよくエンコードするためにマルチヘッド自己保持機構を使用する。
- 参考スコア(独自算出の注目度): 8.93294761619288
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video frame interpolation (VFI) is a fundamental vision task that aims to
synthesize several frames between two consecutive original video images. Most
algorithms aim to accomplish VFI by using only keyframes, which is an ill-posed
problem since the keyframes usually do not yield any accurate precision about
the trajectories of the objects in the scene. On the other hand, event-based
cameras provide more precise information between the keyframes of a video. Some
recent state-of-the-art event-based methods approach this problem by utilizing
event data for better optical flow estimation to interpolate for video frame by
warping. Nonetheless, those methods heavily suffer from the ghosting effect. On
the other hand, some of kernel-based VFI methods that only use frames as input,
have shown that deformable convolutions, when backed up with transformers, can
be a reliable way of dealing with long-range dependencies. We propose
event-based video frame interpolation with attention (E-VFIA), as a lightweight
kernel-based method. E-VFIA fuses event information with standard video frames
by deformable convolutions to generate high quality interpolated frames. The
proposed method represents events with high temporal resolution and uses a
multi-head self-attention mechanism to better encode event-based information,
while being less vulnerable to blurring and ghosting artifacts; thus,
generating crispier frames. The simulation results show that the proposed
technique outperforms current state-of-the-art methods (both frame and
event-based) with a significantly smaller model size.
- Abstract(参考訳): ビデオフレーム補間(VFI)は、2つの連続したオリジナル映像間で複数のフレームを合成することを目的とした基本的な視覚課題である。
ほとんどのアルゴリズムはキーフレームのみを使用してvfiを実現することを目標としているが、キーフレームは通常、シーン内のオブジェクトの軌跡について正確な精度を示さないため、不適切な問題である。
一方、イベントベースのカメラは、ビデオのキーフレーム間のより正確な情報を提供する。
最近の最先端のイベントベース手法では、イベントデータを利用してより優れた光フロー推定を行い、ワーピングによるビデオフレームの補間を行うことでこの問題にアプローチしている。
にもかかわらず、これらの方法はゴースト効果に苦しむ。
一方、フレームのみを入力として使用するカーネルベースのVFI手法のいくつかは、変形可能な畳み込みがトランスフォーマーによってバックアップされる場合、長距離依存関係を扱う信頼性の高い方法であることを示している。
軽量カーネルベース手法として,イベントベースビデオフレームの注目補間(E-VFIA)を提案する。
E-VFIAは、イベント情報を変形可能な畳み込みによって標準的なビデオフレームと融合し、高品質な補間フレームを生成する。
提案手法は,時間分解能の高い事象を表現し,マルチヘッド・セルフアテンション機構を用いてイベントベースの情報をよりよくエンコードすると同時に,ぼやけたり,ゴーストしたりするアーティファクトに対する脆弱性を少なくし,より鮮明なフレームを生成する。
シミュレーションの結果,提案手法は現状の手法(フレームとイベントベースの両方)よりもはるかに小さいモデルサイズで優れていた。
関連論文リスト
- Event-based Video Frame Interpolation with Edge Guided Motion Refinement [28.331148083668857]
本稿では,イベント信号のエッジ特徴を効果的に活用するためのエンドツーエンドE-VFI学習手法を提案する。
提案手法にはエッジガイド・アテンテーティブ(EGA)モジュールが組み込まれており,アテンテーティブアグリゲーションによって推定された映像の動きを補正する。
合成データと実データの両方を用いた実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-04-28T12:13:34Z) - IDO-VFI: Identifying Dynamics via Optical Flow Guidance for Video Frame
Interpolation with Events [14.098949778274733]
イベントカメラは、フレーム間のダイナミクスを極めて高い時間分解能で捉えるのに最適である。
IDO-VFIというイベント・アンド・フレームベースのビデオフレーム方式を提案する。
提案手法は,Vimeo90Kデータセット上での計算時間と計算労力をそれぞれ10%と17%削減しつつ,高品質な性能を維持する。
論文 参考訳(メタデータ) (2023-05-17T13:22:21Z) - Event-Based Frame Interpolation with Ad-hoc Deblurring [68.97825675372354]
本稿では,入力ビデオのアドホックを損なうイベントベースフレームの一般的な手法を提案する。
我々のネットワークは、フレーム上の最先端の手法、単一画像のデブロアリング、および共同作業のデブロアリングを一貫して上回ります。
コードとデータセットは公開されます。
論文 参考訳(メタデータ) (2023-01-12T18:19:00Z) - H-VFI: Hierarchical Frame Interpolation for Videos with Large Motions [63.23985601478339]
本稿では,ビデオフレームにおける大きな動きに対処する,単純で効果的なH-VFI法を提案する。
H-VFIは、粗大な戦略で変形可能なカーネルを学習するために階層型ビデオ変換器に寄与する。
このようなプログレッシブ近似の利点は、大きなモーションフレーム問題を比較的単純ないくつかのサブタスクに予測できることである。
論文 参考訳(メタデータ) (2022-11-21T09:49:23Z) - TTVFI: Learning Trajectory-Aware Transformer for Video Frame
Interpolation [50.49396123016185]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを合成することを目的としている。
ビデオフレーム補間用トラジェクトリ対応トランス (TTVFI) を提案する。
提案手法は,4つの広く使用されているVFIベンチマークにおいて,他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-19T03:37:49Z) - Video Frame Interpolation without Temporal Priors [91.04877640089053]
ビデオフレームは、既存の中間フレームをビデオシーケンスで合成することを目的としている。
フレーム/秒(FPS)やフレーム露光時間といったビデオの時間的先行は、異なるカメラセンサーによって異なる場合がある。
我々は、より良い合成結果を得るために、新しい光フロー改善戦略を考案する。
論文 参考訳(メタデータ) (2021-12-02T12:13:56Z) - TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。
最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文 参考訳(メタデータ) (2021-06-14T10:33:47Z) - FLAVR: Flow-Agnostic Video Representations for Fast Frame Interpolation [97.99012124785177]
FLAVRは、3D空間時間の畳み込みを使用して、ビデオフレームのエンドツーエンドの学習と推論を可能にする柔軟で効率的なアーキテクチャです。
FLAVRは、アクション認識、光フロー推定、モーション拡大のための有用な自己解釈タスクとして役立つことを実証します。
論文 参考訳(メタデータ) (2020-12-15T18:59:30Z) - ALANET: Adaptive Latent Attention Network forJoint Video Deblurring and
Interpolation [38.52446103418748]
シャープな高フレームレート映像を合成する新しいアーキテクチャであるAdaptive Latent Attention Network (ALANET)を導入する。
我々は,各フレームに最適化された表現を生成するために,潜在空間内の連続するフレーム間で自己アテンションと相互アテンションのモジュールを組み合わせる。
本手法は, より困難な問題に取り組みながら, 様々な最先端手法に対して良好に機能する。
論文 参考訳(メタデータ) (2020-08-31T21:11:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。