論文の概要: EF-VI: Enhancing End-Frame Injection for Video Inbetweening
- arxiv url: http://arxiv.org/abs/2505.21205v2
- Date: Sun, 10 Aug 2025 16:23:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.29912
- Title: EF-VI: Enhancing End-Frame Injection for Video Inbetweening
- Title(参考訳): EF-VI:ビデオ挿入のためのエンドフレームインジェクションの強化
- Authors: Liuhan Chen, Xiaodong Cun, Xiaoyu Li, Xianyi He, Shenghai Yuan, Jie Chen, Ying Shan, Li Yuan,
- Abstract要約: ビデオインテワイニングは、与えられた開始フレームと終了フレームに条件付き中間映像シーケンスを合成することを目的としている。
EF-VI と呼ばれる,近年,より強力なトランスフォーマーベースの I2V-DM に特化する新しいビデオインテグレーティングフレームワークを提案する。
拡張インジェクションを利用することで、エンドフレーム制約を効率的に強化する。
- 参考スコア(独自算出の注目度): 52.6883373124261
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video inbetweening aims to synthesize intermediate video sequences conditioned on the given start and end frames. Current state-of-the-art methods primarily extend large-scale pre-trained Image-to-Video Diffusion Models (I2V-DMs) by incorporating the end-frame condition via direct fine-tuning or temporally bidirectional sampling. However, the former results in a weak end-frame constraint, while the latter inevitably disrupts the input representation of video frames, leading to suboptimal performance. To improve the end-frame constraint while avoiding disruption of the input representation, we propose a novel video inbetweening framework specific to recent and more powerful transformer-based I2V-DMs, termed EF-VI. It efficiently strengthens the end-frame constraint by utilizing an enhanced injection. This is based on our proposed well-designed lightweight module, termed EF-Net, which encodes only the end frame and expands it into temporally adaptive frame-wise features injected into the I2V-DM. Extensive experiments demonstrate the superiority of our EF-VI compared with other baselines.
- Abstract(参考訳): ビデオインテワイニングは、与えられた開始フレームと終了フレームに条件付き中間映像シーケンスを合成することを目的としている。
現在の最先端手法は、直接微調整または時間的双方向サンプリングにより、エンドフレーム条件を組み込むことで、大規模な事前訓練画像拡散モデル(I2V-DM)を拡張している。
しかし、前者はフレームの制約が弱く、後者は必然的にビデオフレームの入力表現を妨害し、亜最適性能をもたらす。
入力表現の中断を回避しつつ、フレームの制約を改善するため、EF-VIと呼ばれる、最近のより強力なトランスフォーマーベースのI2V-DMに特化して、新しいビデオインテグレーティングフレームワークを提案する。
拡張インジェクションを利用することで、エンドフレーム制約を効率的に強化する。
EF-Netは、エンドフレームのみを符号化し、I2V-DMに注入された時間適応的なフレームワイズ機能に拡張する。
大規模な実験は、EF-VIが他のベースラインよりも優れていることを示した。
関連論文リスト
- Generative Inbetweening through Frame-wise Conditions-Driven Video Generation [63.43583844248389]
生成的inbetweeningは、2つのキーフレームを入力として利用することで中間フレームシーケンスを生成することを目的としている。
補間ビデオフレームの時間的安定性を著しく向上するフレームワイド・コンディション駆動ビデオ生成法(FCVG)を提案する。
FCVGは線形曲線と非線形曲線の両方を用いて時間的に安定なビデオを生成する能力を示した。
論文 参考訳(メタデータ) (2024-12-16T13:19:41Z) - Key Frame Mechanism For Efficient Conformer Based End-to-end Speech
Recognition [9.803556181225193]
エンドツーエンドの自動音声認識のためのバックボーンネットワークとしてのコンフォーマーは、最先端の性能を達成した。
しかし、Conformerベースのモデルは、自己認識メカニズムの問題に直面している。
キーフレームを用いた自己注意機構の計算量を削減する新しい手法であるキーフレームベースの自己注意機構(KFSA)を導入する。
論文 参考訳(メタデータ) (2023-10-23T13:55:49Z) - TTVFI: Learning Trajectory-Aware Transformer for Video Frame
Interpolation [50.49396123016185]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを合成することを目的としている。
ビデオフレーム補間用トラジェクトリ対応トランス (TTVFI) を提案する。
提案手法は,4つの広く使用されているVFIベンチマークにおいて,他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-19T03:37:49Z) - Exploring Motion Ambiguity and Alignment for High-Quality Video Frame
Interpolation [46.02120172459727]
本稿では,GTに近い中間フレームを可能な限り再構築する要件を緩和することを提案する。
本研究では,テクスチャ整合性損失 (TCL) を補間されたコンテンツが,与えられたフレーム内でのテクスチャ整合性損失 (TCL) と類似した構造を維持するべきであるという仮定に基づいて開発する。
論文 参考訳(メタデータ) (2022-03-19T10:37:06Z) - Asymmetric Bilateral Motion Estimation for Video Frame Interpolation [50.44508853885882]
非対称な左右運動推定(ABME)に基づく新しいビデオフレームアルゴリズムを提案する。
我々は左右対称運動場を予測してアンカーフレームを補間する。
アンカーフレームから入力フレームへの非対称な左右運動場を推定する。
第三に、非対称場を用いて入力フレームを後方にワープし、中間フレームを再構築する。
論文 参考訳(メタデータ) (2021-08-15T21:11:35Z) - TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。
最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文 参考訳(メタデータ) (2021-06-14T10:33:47Z) - SF-Net: Single-Frame Supervision for Temporal Action Localization [60.202516362976645]
単一フレームの監視は、低いアノテーションのオーバーヘッドを維持しながら、追加の時間的アクション信号を導入します。
本研究では,SF-Netと呼ばれる単一フレーム監視システムを提案する。
SF-Netは、セグメントローカライゼーションと単一フレームローカライゼーションの両方の観点から、最先端の弱い教師付き手法を大幅に改善する。
論文 参考訳(メタデータ) (2020-03-15T15:06:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。