論文の概要: Arbitrary Generative Video Interpolation
- arxiv url: http://arxiv.org/abs/2510.00578v1
- Date: Wed, 01 Oct 2025 06:57:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.428972
- Title: Arbitrary Generative Video Interpolation
- Title(参考訳): 任意生成ビデオ補間
- Authors: Guozhen Zhang, Haiguang Wang, Chunyu Wang, Yuan Zhou, Qinglin Lu, Limin Wang,
- Abstract要約: ビデオフレーム(VFI)は、所定の開始フレームと終了フレームから中間フレームを生成する。
既存のVFI法は、一定数の中間フレームを合成するために制約される。
ArbInterpは、任意のタイムスタンプで効率的な合成を可能にする新しいVFIフレームワークである。
- 参考スコア(独自算出の注目度): 27.953958715353608
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video frame interpolation (VFI), which generates intermediate frames from given start and end frames, has become a fundamental function in video generation applications. However, existing generative VFI methods are constrained to synthesize a fixed number of intermediate frames, lacking the flexibility to adjust generated frame rates or total sequence duration. In this work, we present ArbInterp, a novel generative VFI framework that enables efficient interpolation at any timestamp and of any length. Specifically, to support interpolation at any timestamp, we propose the Timestamp-aware Rotary Position Embedding (TaRoPE), which modulates positions in temporal RoPE to align generated frames with target normalized timestamps. This design enables fine-grained control over frame timestamps, addressing the inflexibility of fixed-position paradigms in prior work. For any-length interpolation, we decompose long-sequence generation into segment-wise frame synthesis. We further design a novel appearance-motion decoupled conditioning strategy: it leverages prior segment endpoints to enforce appearance consistency and temporal semantics to maintain motion coherence, ensuring seamless spatiotemporal transitions across segments. Experimentally, we build comprehensive benchmarks for multi-scale frame interpolation (2x to 32x) to assess generalizability across arbitrary interpolation factors. Results show that ArbInterp outperforms prior methods across all scenarios with higher fidelity and more seamless spatiotemporal continuity. Project website: https://mcg-nju.github.io/ArbInterp-Web/.
- Abstract(参考訳): ビデオフレーム補間 (VFI) は, 所定の開始フレームと終了フレームから中間フレームを生成する。
しかし、既存の生成型VFI法は、一定数の中間フレームを合成するために制約され、生成されたフレームレートや全シーケンス持続時間を調整する柔軟性が欠如している。
本研究では,任意のタイムスタンプおよび任意の長さで効率的な補間を可能にする新しいVFIフレームワークであるArbInterpを提案する。
具体的には、任意のタイムスタンプでの補間を支援するために、時間的RoPEの位置を調整し、生成されたフレームを目標の正規化されたタイムスタンプと整列させる、タイムスタンプ対応ロータリー位置埋め込み(TaRoPE)を提案する。
この設計により、フレームタイムスタンプのきめ細かい制御が可能となり、前処理における固定配置パラダイムの柔軟性に対処できる。
任意の長さの補間に対して、長列生成をセグメントワイドフレーム合成に分解する。
先行セグメントの終端を利用して外観整合性や時間意味論を強制し、動作コヒーレンスを維持し、セグメント間のシームレスな時空間遷移を保証する。
実験により、任意の補間因子間の一般化性を評価するために、多スケールフレーム補間(2xから32x)のための包括的なベンチマークを構築した。
その結果、ArbInterpは、より忠実で、よりシームレスな時空間連続性を持つ全てのシナリオにおいて、先行手法よりも優れていた。
プロジェクトWebサイト: https://mcg-nju.github.io/ArbInterp-Web/.com
関連論文リスト
- LumosFlow: Motion-Guided Long Video Generation [31.63126037070182]
エンターテイメントやシミュレーションなどの分野で広く利用されていることから、長いビデオ生成が注目を集めている。
我々は階層的な長いビデオ生成パイプラインを再考し、モーションガイダンスを明示的に導入するフレームワークであるLumosFlowを紹介した。
従来のビデオフレームと比較して、15倍の精度で、隣接するフレーム間の合理的かつ連続的な動きを保証します。
論文 参考訳(メタデータ) (2025-06-03T06:25:00Z) - Generative Inbetweening through Frame-wise Conditions-Driven Video Generation [63.43583844248389]
生成的inbetweeningは、2つのキーフレームを入力として利用することで中間フレームシーケンスを生成することを目的としている。
補間ビデオフレームの時間的安定性を著しく向上するフレームワイド・コンディション駆動ビデオ生成法(FCVG)を提案する。
FCVGは線形曲線と非線形曲線の両方を用いて時間的に安定なビデオを生成する能力を示した。
論文 参考訳(メタデータ) (2024-12-16T13:19:41Z) - Temporally Consistent Referring Video Object Segmentation with Hybrid Memory [98.80249255577304]
本稿では,参照セグメンテーションとともに時間的一貫性を明示的にモデル化する,エンドツーエンドなR-VOSパラダイムを提案する。
自動生成された高品質の参照マスクを有するフレームの特徴は、残りのフレームをセグメント化するために伝播される。
大規模な実験により,本手法は時間的整合性を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-03-28T13:32:49Z) - UMMAFormer: A Universal Multimodal-adaptive Transformer Framework for
Temporal Forgery Localization [16.963092523737593]
本稿では,時間的フォージェリー・ローカライゼーション(TFL)のための新しいフレームワークを提案し,マルチモーダル適応によるフォルジェリー・セグメントの予測を行う。
提案手法は,Lav-DF,TVIL,Psyndなど,ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-08-28T08:20:30Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z) - IFRNet: Intermediate Feature Refine Network for Efficient Frame
Interpolation [44.04110765492441]
我々は高速中間フレーム合成のための効率的なエンコーダデコーダベースネットワーク IFRNet を考案した。
様々なベンチマークの実験では、提案手法の優れた性能と高速な推論速度が示されている。
論文 参考訳(メタデータ) (2022-05-29T10:18:18Z) - Long-term Video Frame Interpolation via Feature Propagation [95.18170372022703]
ビデオフレーム(VFI)は、まず入力間の動きを推定し、次に推定された動きで入力を目標時間にワープすることで、中間フレーム(s)を予測する。
入力シーケンス間の時間的距離が増加すると、このアプローチは最適ではない。
本稿では,従来の特徴レベルの予測を新しいモーション・トゥ・フェース・アプローチで拡張した伝搬ネットワーク(PNet)を提案する。
論文 参考訳(メタデータ) (2022-03-29T10:47:06Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。