論文の概要: Towards Unified Keyframe Propagation Models
- arxiv url: http://arxiv.org/abs/2205.09731v1
- Date: Thu, 19 May 2022 17:40:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-20 13:56:34.877966
- Title: Towards Unified Keyframe Propagation Models
- Title(参考訳): 統一キーフレーム伝播モデルに向けて
- Authors: Patrick Esser and Peter Michael and Soumyadip Sengupta
- Abstract要約: 本稿では,高周波特徴が局所的に相互作用し,低周波特徴がグローバルに相互作用する2ストリーム手法を提案する。
実験の結果,画像の塗布に必要な単一フレーム内の特徴の伝搬と,トランスフォーマーからターゲットフレームへの伝搬の両方が改善された。
- 参考スコア(独自算出の注目度): 17.240459042738745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many video editing tasks such as rotoscoping or object removal require the
propagation of context across frames. While transformers and other
attention-based approaches that aggregate features globally have demonstrated
great success at propagating object masks from keyframes to the whole video,
they struggle to propagate high-frequency details such as textures faithfully.
We hypothesize that this is due to an inherent bias of global attention towards
low-frequency features. To overcome this limitation, we present a two-stream
approach, where high-frequency features interact locally and low-frequency
features interact globally. The global interaction stream remains robust in
difficult situations such as large camera motions, where explicit alignment
fails. The local interaction stream propagates high-frequency details through
deformable feature aggregation and, informed by the global interaction stream,
learns to detect and correct errors of the deformation field. We evaluate our
two-stream approach for inpainting tasks, where experiments show that it
improves both the propagation of features within a single frame as required for
image inpainting, as well as their propagation from keyframes to target frames.
Applied to video inpainting, our approach leads to 44% and 26% improvements in
FID and LPIPS scores. Code at https://github.com/runwayml/guided-inpainting
- Abstract(参考訳): ロトスコープやオブジェクト削除などの多くのビデオ編集タスクは、フレーム間のコンテキストの伝搬を必要とする。
トランスフォーマーや他の注目に基づく機能集約アプローチは、キーフレームからビデオ全体へのオブジェクトマスクの伝播に大きな成功を収めている一方で、テクスチャなどの高周波の詳細を忠実に伝播するのに苦労している。
これは低周波特性に対する世界的注意の偏りによるものであると仮定する。
この制限を克服するために、高周波数特徴が局所的に相互作用し、低周波数特徴がグローバルに相互作用する2ストリームアプローチを提案する。
グローバルな相互作用ストリームは、明示的なアライメントが失敗する大きなカメラモーションのような困難な状況において、引き続き堅牢である。
局所的な相互作用ストリームは、変形可能な特徴集約を通じて高周波の詳細を伝播し、グローバルな相互作用ストリームによって通知され、変形フィールドのエラーを検出し、修正する。
そこでは,画像の描画に必要な単一フレーム内の特徴の伝搬と,キーフレームからターゲットフレームへの伝搬を両立させる実験を行った。
ビデオインペインティングに適用すると,fidスコアとlpipsスコアは44%,26%改善した。
Code at https://github.com/runwayml/guided-inpainting
関連論文リスト
- Ada-VE: Training-Free Consistent Video Editing Using Adaptive Motion Prior [13.595032265551184]
ビデオ間合成は、キャラクタ一貫性の維持、スムーズな時間遷移、高速動作時の視覚的品質の維持において大きな課題となる。
本稿では,冗長計算を選択的に削減する適応型動き誘導型クロスフレームアテンション機構を提案する。
これにより、同じ計算予算内でより多くのフレームにクロスフレームの注意を向けることができる。
論文 参考訳(メタデータ) (2024-06-07T12:12:25Z) - Dynamic Frame Interpolation in Wavelet Domain [57.25341639095404]
ビデオフレームは、より流動的な視覚体験のためにフレームレートを上げることができる、重要な低レベルな計算ビジョンタスクである。
既存の手法は、高度なモーションモデルと合成ネットワークを利用することで大きな成功を収めた。
WaveletVFIは、同様の精度を維持しながら最大40%の計算を削減できるため、他の最先端技術に対してより効率的に処理できる。
論文 参考訳(メタデータ) (2023-09-07T06:41:15Z) - Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。
我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文 参考訳(メタデータ) (2023-06-13T17:52:23Z) - E-VFIA : Event-Based Video Frame Interpolation with Attention [8.93294761619288]
軽量カーネルベース手法として,注目度の高いイベントベースビデオフレーム(E-VFIA)を提案する。
E-VFIAは、イベント情報を変形可能な畳み込みによって標準的なビデオフレームと融合し、高品質な補間フレームを生成する。
提案手法は、時間分解能の高いイベントを表現し、イベントベース情報をよりよくエンコードするためにマルチヘッド自己保持機構を使用する。
論文 参考訳(メタデータ) (2022-09-19T21:40:32Z) - TTVFI: Learning Trajectory-Aware Transformer for Video Frame
Interpolation [50.49396123016185]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを合成することを目的としている。
ビデオフレーム補間用トラジェクトリ対応トランス (TTVFI) を提案する。
提案手法は,4つの広く使用されているVFIベンチマークにおいて,他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-19T03:37:49Z) - Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。
グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。
さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文 参考訳(メタデータ) (2021-11-27T05:35:10Z) - TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。
最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文 参考訳(メタデータ) (2021-06-14T10:33:47Z) - ALANET: Adaptive Latent Attention Network forJoint Video Deblurring and
Interpolation [38.52446103418748]
シャープな高フレームレート映像を合成する新しいアーキテクチャであるAdaptive Latent Attention Network (ALANET)を導入する。
我々は,各フレームに最適化された表現を生成するために,潜在空間内の連続するフレーム間で自己アテンションと相互アテンションのモジュールを組み合わせる。
本手法は, より困難な問題に取り組みながら, 様々な最先端手法に対して良好に機能する。
論文 参考訳(メタデータ) (2020-08-31T21:11:53Z) - All at Once: Temporally Adaptive Multi-Frame Interpolation with Advanced
Motion Modeling [52.425236515695914]
最先端の手法は、一度に1つのフレームを補間する反復解である。
この研究は、真のマルチフレーム補間子を導入している。
時間領域のピラミッドスタイルのネットワークを使用して、複数フレームのタスクをワンショットで完了する。
論文 参考訳(メタデータ) (2020-07-23T02:34:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。