論文の概要: Sci-Fi: Symmetric Constraint for Frame Inbetweening
- arxiv url: http://arxiv.org/abs/2505.21205v1
- Date: Tue, 27 May 2025 13:53:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.689765
- Title: Sci-Fi: Symmetric Constraint for Frame Inbetweening
- Title(参考訳): Sci-Fi:フレーム間通信における対称性制約
- Authors: Liuhan Chen, Xiaodong Cun, Xiaoyu Li, Xianyi He, Shenghai Yuan, Jie Chen, Ying Shan, Li Yuan,
- Abstract要約: フレーム間インベントワイニングは、与えられた開始フレームと終了フレームに条件付き中間映像シーケンスを合成することを目的としている。
現在の最先端手法は、主に大規模な事前訓練された画像-映像拡散モデルを拡張している。
Sci-Fiと呼ばれる新しいフレームワークを提案し、より小さなトレーニングスケールの制約に対してより強力なインジェクションを適用する。
- 参考スコア(独自算出の注目度): 52.6883373124261
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Frame inbetweening aims to synthesize intermediate video sequences conditioned on the given start and end frames. Current state-of-the-art methods mainly extend large-scale pre-trained Image-to-Video Diffusion models (I2V-DMs) by incorporating end-frame constraints via directly fine-tuning or omitting training. We identify a critical limitation in their design: Their injections of the end-frame constraint usually utilize the same mechanism that originally imposed the start-frame (single image) constraint. However, since the original I2V-DMs are adequately trained for the start-frame condition in advance, naively introducing the end-frame constraint by the same mechanism with much less (even zero) specialized training probably can't make the end frame have a strong enough impact on the intermediate content like the start frame. This asymmetric control strength of the two frames over the intermediate content likely leads to inconsistent motion or appearance collapse in generated frames. To efficiently achieve symmetric constraints of start and end frames, we propose a novel framework, termed Sci-Fi, which applies a stronger injection for the constraint of a smaller training scale. Specifically, it deals with the start-frame constraint as before, while introducing the end-frame constraint by an improved mechanism. The new mechanism is based on a well-designed lightweight module, named EF-Net, which encodes only the end frame and expands it into temporally adaptive frame-wise features injected into the I2V-DM. This makes the end-frame constraint as strong as the start-frame constraint, enabling our Sci-Fi to produce more harmonious transitions in various scenarios. Extensive experiments prove the superiority of our Sci-Fi compared with other baselines.
- Abstract(参考訳): フレーム間インベントワイニングは、与えられた開始フレームと終了フレームに条件付き中間映像シーケンスを合成することを目的としている。
現在の最先端手法は、直接微調整やオミッティングのトレーニングを通じて、エンドフレーム制約を組み込むことで、大規模な事前訓練画像拡散モデル(I2V-DM)を主に拡張している。
エンドフレーム制約の注入は通常、最初に開始フレーム(単一イメージ)制約を課したのと同じメカニズムを使用します。
しかし、元々のI2V-DMは事前に開始フレーム条件に適切に訓練されているため、初期フレームのような中間コンテンツに十分な影響を及ぼさないよう、より少ない(ゼロであっても)特別な訓練で同じ機構でエンドフレーム制約を鼻で導入することはおそらく不可能である。
この中間量に対する2つのフレームの非対称的な制御強度は、生成されたフレーム内での不整合運動や出現崩壊を引き起こす可能性がある。
開始フレームと終了フレームの対称的制約を効果的に達成するために,より小さなトレーニングスケールの制約に対してより強力なインジェクションを適用した,Sci-Fiと呼ばれる新しいフレームワークを提案する。
具体的には、以前のようにスタートフレームの制約を扱うと同時に、改善されたメカニズムによってエンドフレームの制約を導入する。
EF-Netはエンドフレームのみをエンコードし、I2V-DMに注入された時間適応的なフレームワイド機能に拡張する。
これにより、エンドフレームの制約はスタートフレームの制約と同じくらい強くなり、Sci-Fiはさまざまなシナリオでより調和したトランジションを生成することができます。
大規模な実験は、Sci-Fiが他のベースラインよりも優れていることを証明している。
関連論文リスト
- FC-VFI: Faithful and Consistent Video Frame Interpolation for High-FPS Slow Motion Video Generation [14.850919655503871]
忠実で一貫したビデオフレーム保存のためのFC-VFIを提案し、(4時間)xと(8時間)解像度をサポートした。
本稿では,先行列の時間的モデリング手法を導入し,開始フレームと終了フレームから忠実度を継承し,構造認識動作誘導のセマンティックマッチング線を利用する。
論文 参考訳(メタデータ) (2026-03-05T07:41:34Z) - Towards Holistic Modeling for Video Frame Interpolation with Auto-regressive Diffusion Transformers [95.68243351895107]
我々はtextbfVideo textbfFrame textbfInterpolation (LDF-VFI) のための textbfLocal textbfDiffusion textbfForcing for textbfVideo textbfFrame textbfInterpolation (LDF-VFI) という包括的でビデオ中心のパラダイムを提案する。
我々のフレームワークは、ビデオシーケンス全体をモデル化し、長距離時間的コヒーレンスを確保する自動回帰拡散変換器上に構築されている。
LDF-VFIは、挑戦的なロングシーケンスベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-01-21T12:58:52Z) - EDEN: Enhanced Diffusion for High-quality Large-motion Video Frame Interpolation [95.60655992032316]
高品質な大動vidEoフレームiNterpolationのための拡張拡散であるEDENを紹介する。
提案手法はまずトランスを用いたトークン化器を用いて,拡散モデルのための中間フレームの洗練された潜在表現を生成する。
次に,プロセス全体にわたって時間的注意を払って拡散トランスフォーマーを強化し,動的運動の発生を導くために,初期フレーム差の埋め込みを組み込む。
論文 参考訳(メタデータ) (2025-03-20T03:54:52Z) - Generative Inbetweening through Frame-wise Conditions-Driven Video Generation [63.43583844248389]
生成的inbetweeningは、2つのキーフレームを入力として利用することで中間フレームシーケンスを生成することを目的としている。
補間ビデオフレームの時間的安定性を著しく向上するフレームワイド・コンディション駆動ビデオ生成法(FCVG)を提案する。
FCVGは線形曲線と非線形曲線の両方を用いて時間的に安定なビデオを生成する能力を示した。
論文 参考訳(メタデータ) (2024-12-16T13:19:41Z) - ViBiDSampler: Enhancing Video Interpolation Using Bidirectional Diffusion Sampler [53.98558445900626]
現在の画像とビデオの拡散モデルは、単一のフレームからビデオを生成するのに強力だが、2フレーム条件付き生成に適応する必要がある。
我々は,これらのオフマンド問題に対処するために,広範囲な再ノイズや微調整を必要とせずに,新しい双方向サンプリング戦略を導入する。
提案手法では,それぞれ開始フレームと終了フレームに条件付き前方経路と後方経路の両方に沿って逐次サンプリングを行い,中間フレームの整合性を確保した。
論文 参考訳(メタデータ) (2024-10-08T03:01:54Z) - A Multi-In-Single-Out Network for Video Frame Interpolation without
Optical Flow [14.877766449009119]
深層学習に基づくビデオフレーム (VFI) 法は、2つの入力フレーム間の動きを推定することに集中している。
動作ベクトル推定に依存しないマルチインシングルアウト(MISO)に基づくVFI法を提案する。
我々はMISO-VFIがビデオフレーム内のベクトル時間をよりよくキャプチャできる新しい動き知覚損失を導入した。
論文 参考訳(メタデータ) (2023-11-20T08:29:55Z) - Key Frame Mechanism For Efficient Conformer Based End-to-end Speech
Recognition [9.803556181225193]
エンドツーエンドの自動音声認識のためのバックボーンネットワークとしてのコンフォーマーは、最先端の性能を達成した。
しかし、Conformerベースのモデルは、自己認識メカニズムの問題に直面している。
キーフレームを用いた自己注意機構の計算量を削減する新しい手法であるキーフレームベースの自己注意機構(KFSA)を導入する。
論文 参考訳(メタデータ) (2023-10-23T13:55:49Z) - Boost Video Frame Interpolation via Motion Adaptation [73.42573856943923]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを生成することを目的とした課題である。
既存の学習ベースのVFI手法は大きな成功を収めたが、それでも限定的な一般化能力に悩まされている。
テスト時に見えない動作に適応できる新しい最適化ベースのVFI法を提案する。
論文 参考訳(メタデータ) (2023-06-24T10:44:02Z) - E-VFIA : Event-Based Video Frame Interpolation with Attention [8.93294761619288]
軽量カーネルベース手法として,注目度の高いイベントベースビデオフレーム(E-VFIA)を提案する。
E-VFIAは、イベント情報を変形可能な畳み込みによって標準的なビデオフレームと融合し、高品質な補間フレームを生成する。
提案手法は、時間分解能の高いイベントを表現し、イベントベース情報をよりよくエンコードするためにマルチヘッド自己保持機構を使用する。
論文 参考訳(メタデータ) (2022-09-19T21:40:32Z) - TTVFI: Learning Trajectory-Aware Transformer for Video Frame
Interpolation [50.49396123016185]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを合成することを目的としている。
ビデオフレーム補間用トラジェクトリ対応トランス (TTVFI) を提案する。
提案手法は,4つの広く使用されているVFIベンチマークにおいて,他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-19T03:37:49Z) - Exploring Motion Ambiguity and Alignment for High-Quality Video Frame
Interpolation [46.02120172459727]
本稿では,GTに近い中間フレームを可能な限り再構築する要件を緩和することを提案する。
本研究では,テクスチャ整合性損失 (TCL) を補間されたコンテンツが,与えられたフレーム内でのテクスチャ整合性損失 (TCL) と類似した構造を維持するべきであるという仮定に基づいて開発する。
論文 参考訳(メタデータ) (2022-03-19T10:37:06Z) - Asymmetric Bilateral Motion Estimation for Video Frame Interpolation [50.44508853885882]
非対称な左右運動推定(ABME)に基づく新しいビデオフレームアルゴリズムを提案する。
我々は左右対称運動場を予測してアンカーフレームを補間する。
アンカーフレームから入力フレームへの非対称な左右運動場を推定する。
第三に、非対称場を用いて入力フレームを後方にワープし、中間フレームを再構築する。
論文 参考訳(メタデータ) (2021-08-15T21:11:35Z) - TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。
最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文 参考訳(メタデータ) (2021-06-14T10:33:47Z) - SF-Net: Single-Frame Supervision for Temporal Action Localization [60.202516362976645]
単一フレームの監視は、低いアノテーションのオーバーヘッドを維持しながら、追加の時間的アクション信号を導入します。
本研究では,SF-Netと呼ばれる単一フレーム監視システムを提案する。
SF-Netは、セグメントローカライゼーションと単一フレームローカライゼーションの両方の観点から、最先端の弱い教師付き手法を大幅に改善する。
論文 参考訳(メタデータ) (2020-03-15T15:06:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。