論文の概要: Sci-Fi: Symmetric Constraint for Frame Inbetweening
- arxiv url: http://arxiv.org/abs/2505.21205v1
- Date: Tue, 27 May 2025 13:53:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.689765
- Title: Sci-Fi: Symmetric Constraint for Frame Inbetweening
- Title(参考訳): Sci-Fi:フレーム間通信における対称性制約
- Authors: Liuhan Chen, Xiaodong Cun, Xiaoyu Li, Xianyi He, Shenghai Yuan, Jie Chen, Ying Shan, Li Yuan,
- Abstract要約: フレーム間インベントワイニングは、与えられた開始フレームと終了フレームに条件付き中間映像シーケンスを合成することを目的としている。
現在の最先端手法は、主に大規模な事前訓練された画像-映像拡散モデルを拡張している。
Sci-Fiと呼ばれる新しいフレームワークを提案し、より小さなトレーニングスケールの制約に対してより強力なインジェクションを適用する。
- 参考スコア(独自算出の注目度): 52.6883373124261
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Frame inbetweening aims to synthesize intermediate video sequences conditioned on the given start and end frames. Current state-of-the-art methods mainly extend large-scale pre-trained Image-to-Video Diffusion models (I2V-DMs) by incorporating end-frame constraints via directly fine-tuning or omitting training. We identify a critical limitation in their design: Their injections of the end-frame constraint usually utilize the same mechanism that originally imposed the start-frame (single image) constraint. However, since the original I2V-DMs are adequately trained for the start-frame condition in advance, naively introducing the end-frame constraint by the same mechanism with much less (even zero) specialized training probably can't make the end frame have a strong enough impact on the intermediate content like the start frame. This asymmetric control strength of the two frames over the intermediate content likely leads to inconsistent motion or appearance collapse in generated frames. To efficiently achieve symmetric constraints of start and end frames, we propose a novel framework, termed Sci-Fi, which applies a stronger injection for the constraint of a smaller training scale. Specifically, it deals with the start-frame constraint as before, while introducing the end-frame constraint by an improved mechanism. The new mechanism is based on a well-designed lightweight module, named EF-Net, which encodes only the end frame and expands it into temporally adaptive frame-wise features injected into the I2V-DM. This makes the end-frame constraint as strong as the start-frame constraint, enabling our Sci-Fi to produce more harmonious transitions in various scenarios. Extensive experiments prove the superiority of our Sci-Fi compared with other baselines.
- Abstract(参考訳): フレーム間インベントワイニングは、与えられた開始フレームと終了フレームに条件付き中間映像シーケンスを合成することを目的としている。
現在の最先端手法は、直接微調整やオミッティングのトレーニングを通じて、エンドフレーム制約を組み込むことで、大規模な事前訓練画像拡散モデル(I2V-DM)を主に拡張している。
エンドフレーム制約の注入は通常、最初に開始フレーム(単一イメージ)制約を課したのと同じメカニズムを使用します。
しかし、元々のI2V-DMは事前に開始フレーム条件に適切に訓練されているため、初期フレームのような中間コンテンツに十分な影響を及ぼさないよう、より少ない(ゼロであっても)特別な訓練で同じ機構でエンドフレーム制約を鼻で導入することはおそらく不可能である。
この中間量に対する2つのフレームの非対称的な制御強度は、生成されたフレーム内での不整合運動や出現崩壊を引き起こす可能性がある。
開始フレームと終了フレームの対称的制約を効果的に達成するために,より小さなトレーニングスケールの制約に対してより強力なインジェクションを適用した,Sci-Fiと呼ばれる新しいフレームワークを提案する。
具体的には、以前のようにスタートフレームの制約を扱うと同時に、改善されたメカニズムによってエンドフレームの制約を導入する。
EF-Netはエンドフレームのみをエンコードし、I2V-DMに注入された時間適応的なフレームワイド機能に拡張する。
これにより、エンドフレームの制約はスタートフレームの制約と同じくらい強くなり、Sci-Fiはさまざまなシナリオでより調和したトランジションを生成することができます。
大規模な実験は、Sci-Fiが他のベースラインよりも優れていることを証明している。
関連論文リスト
- Generative Inbetweening through Frame-wise Conditions-Driven Video Generation [63.43583844248389]
生成的inbetweeningは、2つのキーフレームを入力として利用することで中間フレームシーケンスを生成することを目的としている。
補間ビデオフレームの時間的安定性を著しく向上するフレームワイド・コンディション駆動ビデオ生成法(FCVG)を提案する。
FCVGは線形曲線と非線形曲線の両方を用いて時間的に安定なビデオを生成する能力を示した。
論文 参考訳(メタデータ) (2024-12-16T13:19:41Z) - Key Frame Mechanism For Efficient Conformer Based End-to-end Speech
Recognition [9.803556181225193]
エンドツーエンドの自動音声認識のためのバックボーンネットワークとしてのコンフォーマーは、最先端の性能を達成した。
しかし、Conformerベースのモデルは、自己認識メカニズムの問題に直面している。
キーフレームを用いた自己注意機構の計算量を削減する新しい手法であるキーフレームベースの自己注意機構(KFSA)を導入する。
論文 参考訳(メタデータ) (2023-10-23T13:55:49Z) - TTVFI: Learning Trajectory-Aware Transformer for Video Frame
Interpolation [50.49396123016185]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを合成することを目的としている。
ビデオフレーム補間用トラジェクトリ対応トランス (TTVFI) を提案する。
提案手法は,4つの広く使用されているVFIベンチマークにおいて,他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-19T03:37:49Z) - Exploring Motion Ambiguity and Alignment for High-Quality Video Frame
Interpolation [46.02120172459727]
本稿では,GTに近い中間フレームを可能な限り再構築する要件を緩和することを提案する。
本研究では,テクスチャ整合性損失 (TCL) を補間されたコンテンツが,与えられたフレーム内でのテクスチャ整合性損失 (TCL) と類似した構造を維持するべきであるという仮定に基づいて開発する。
論文 参考訳(メタデータ) (2022-03-19T10:37:06Z) - Asymmetric Bilateral Motion Estimation for Video Frame Interpolation [50.44508853885882]
非対称な左右運動推定(ABME)に基づく新しいビデオフレームアルゴリズムを提案する。
我々は左右対称運動場を予測してアンカーフレームを補間する。
アンカーフレームから入力フレームへの非対称な左右運動場を推定する。
第三に、非対称場を用いて入力フレームを後方にワープし、中間フレームを再構築する。
論文 参考訳(メタデータ) (2021-08-15T21:11:35Z) - TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。
最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文 参考訳(メタデータ) (2021-06-14T10:33:47Z) - SF-Net: Single-Frame Supervision for Temporal Action Localization [60.202516362976645]
単一フレームの監視は、低いアノテーションのオーバーヘッドを維持しながら、追加の時間的アクション信号を導入します。
本研究では,SF-Netと呼ばれる単一フレーム監視システムを提案する。
SF-Netは、セグメントローカライゼーションと単一フレームローカライゼーションの両方の観点から、最先端の弱い教師付き手法を大幅に改善する。
論文 参考訳(メタデータ) (2020-03-15T15:06:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。