論文の概要: Towards Unified Keyframe Propagation Models
- arxiv url: http://arxiv.org/abs/2205.09731v1
- Date: Thu, 19 May 2022 17:40:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-20 13:56:34.877966
- Title: Towards Unified Keyframe Propagation Models
- Title(参考訳): 統一キーフレーム伝播モデルに向けて
- Authors: Patrick Esser and Peter Michael and Soumyadip Sengupta
- Abstract要約: 本稿では,高周波特徴が局所的に相互作用し,低周波特徴がグローバルに相互作用する2ストリーム手法を提案する。
実験の結果,画像の塗布に必要な単一フレーム内の特徴の伝搬と,トランスフォーマーからターゲットフレームへの伝搬の両方が改善された。
- 参考スコア(独自算出の注目度): 17.240459042738745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many video editing tasks such as rotoscoping or object removal require the
propagation of context across frames. While transformers and other
attention-based approaches that aggregate features globally have demonstrated
great success at propagating object masks from keyframes to the whole video,
they struggle to propagate high-frequency details such as textures faithfully.
We hypothesize that this is due to an inherent bias of global attention towards
low-frequency features. To overcome this limitation, we present a two-stream
approach, where high-frequency features interact locally and low-frequency
features interact globally. The global interaction stream remains robust in
difficult situations such as large camera motions, where explicit alignment
fails. The local interaction stream propagates high-frequency details through
deformable feature aggregation and, informed by the global interaction stream,
learns to detect and correct errors of the deformation field. We evaluate our
two-stream approach for inpainting tasks, where experiments show that it
improves both the propagation of features within a single frame as required for
image inpainting, as well as their propagation from keyframes to target frames.
Applied to video inpainting, our approach leads to 44% and 26% improvements in
FID and LPIPS scores. Code at https://github.com/runwayml/guided-inpainting
- Abstract(参考訳): ロトスコープやオブジェクト削除などの多くのビデオ編集タスクは、フレーム間のコンテキストの伝搬を必要とする。
トランスフォーマーや他の注目に基づく機能集約アプローチは、キーフレームからビデオ全体へのオブジェクトマスクの伝播に大きな成功を収めている一方で、テクスチャなどの高周波の詳細を忠実に伝播するのに苦労している。
これは低周波特性に対する世界的注意の偏りによるものであると仮定する。
この制限を克服するために、高周波数特徴が局所的に相互作用し、低周波数特徴がグローバルに相互作用する2ストリームアプローチを提案する。
グローバルな相互作用ストリームは、明示的なアライメントが失敗する大きなカメラモーションのような困難な状況において、引き続き堅牢である。
局所的な相互作用ストリームは、変形可能な特徴集約を通じて高周波の詳細を伝播し、グローバルな相互作用ストリームによって通知され、変形フィールドのエラーを検出し、修正する。
そこでは,画像の描画に必要な単一フレーム内の特徴の伝搬と,キーフレームからターゲットフレームへの伝搬を両立させる実験を行った。
ビデオインペインティングに適用すると,fidスコアとlpipsスコアは44%,26%改善した。
Code at https://github.com/runwayml/guided-inpainting
関連論文リスト
- Event-Based Video Frame Interpolation With Cross-Modal Asymmetric Bidirectional Motion Fields [39.214857326425204]
ビデオフレーム補間 (VFI) は連続的な入力フレーム間の中間映像フレームを生成することを目的としている。
クロスモーダルな非対称な双方向運動場推定を行うイベントベースVFIフレームワークを提案する。
提案手法は, 各種データセット上での最先端VFI法よりも高い性能向上を示す。
論文 参考訳(メタデータ) (2025-02-19T13:40:43Z) - FramePainter: Endowing Interactive Image Editing with Video Diffusion Priors [64.54220123913154]
本稿では,画像から映像への効率のよい生成問題としてFramePainterを紹介した。
軽量のスパース制御エンコーダのみを使用して編集信号を注入する。
従来の最先端の手法をはるかに少ないトレーニングデータで上回ります。
論文 参考訳(メタデータ) (2025-01-14T16:09:16Z) - Aggregating Nearest Sharp Features via Hybrid Transformers for Video Deblurring [70.06559269075352]
本稿では,隣接するフレームと既存のシャープフレームの両方を特徴集約のためにハイブリッドトランスフォーマーを用いて活用するビデオデブロアリング手法を提案する。
検出されたシャープフレームから最も近いシャープ特徴を集約するために,マルチスケールマッチング機能を備えたグローバルトランスを利用する。
提案手法は,定量的な計測値と視覚的品質の観点から,最先端のビデオデブロアリング法,およびイベント駆動ビデオデブロアリング法より優れる。
論文 参考訳(メタデータ) (2023-09-13T16:12:11Z) - Dynamic Frame Interpolation in Wavelet Domain [57.25341639095404]
ビデオフレームは、より流動的な視覚体験のためにフレームレートを上げることができる、重要な低レベルな計算ビジョンタスクである。
既存の手法は、高度なモーションモデルと合成ネットワークを利用することで大きな成功を収めた。
WaveletVFIは、同様の精度を維持しながら最大40%の計算を削減できるため、他の最先端技術に対してより効率的に処理できる。
論文 参考訳(メタデータ) (2023-09-07T06:41:15Z) - A Unified Framework for Event-based Frame Interpolation with Ad-hoc Deblurring in the Wild [72.0226493284814]
本稿では,デブロリングアドホックを行うイベントベースフレームの統一フレームワークを提案する。
我々のネットワークは、フレーム上の従来の最先端の手法、単一画像のデブロアリング、および両者のジョイントタスクを一貫して上回ります。
論文 参考訳(メタデータ) (2023-01-12T18:19:00Z) - E-VFIA : Event-Based Video Frame Interpolation with Attention [8.93294761619288]
軽量カーネルベース手法として,注目度の高いイベントベースビデオフレーム(E-VFIA)を提案する。
E-VFIAは、イベント情報を変形可能な畳み込みによって標準的なビデオフレームと融合し、高品質な補間フレームを生成する。
提案手法は、時間分解能の高いイベントを表現し、イベントベース情報をよりよくエンコードするためにマルチヘッド自己保持機構を使用する。
論文 参考訳(メタデータ) (2022-09-19T21:40:32Z) - TTVFI: Learning Trajectory-Aware Transformer for Video Frame
Interpolation [50.49396123016185]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを合成することを目的としている。
ビデオフレーム補間用トラジェクトリ対応トランス (TTVFI) を提案する。
提案手法は,4つの広く使用されているVFIベンチマークにおいて,他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-19T03:37:49Z) - TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。
最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文 参考訳(メタデータ) (2021-06-14T10:33:47Z) - ALANET: Adaptive Latent Attention Network forJoint Video Deblurring and
Interpolation [38.52446103418748]
シャープな高フレームレート映像を合成する新しいアーキテクチャであるAdaptive Latent Attention Network (ALANET)を導入する。
我々は,各フレームに最適化された表現を生成するために,潜在空間内の連続するフレーム間で自己アテンションと相互アテンションのモジュールを組み合わせる。
本手法は, より困難な問題に取り組みながら, 様々な最先端手法に対して良好に機能する。
論文 参考訳(メタデータ) (2020-08-31T21:11:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。