論文の概要: FFP-300K: Scaling First-Frame Propagation for Generalizable Video Editing
- arxiv url: http://arxiv.org/abs/2601.01720v1
- Date: Mon, 05 Jan 2026 01:46:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.72976
- Title: FFP-300K: Scaling First-Frame Propagation for Generalizable Video Editing
- Title(参考訳): FFP-300K: 一般化可能なビデオ編集のためのファーストフレームプロパゲーションのスケーリング
- Authors: Xijie Huang, Chengming Xu, Donghao Luo, Xiaobin Hu, Peng Tang, Xu Peng, Jiangning Zhang, Chengjie Wang, Yanwei Fu,
- Abstract要約: FFP-300Kは、720p解像度と81フレームの高忠実度ビデオペアの大規模データセットである。
本稿では,第1フレームの外観維持とソース映像の動作保存の緊張を解消する,真の誘導不要なFFPのための新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 97.35186681023025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: First-Frame Propagation (FFP) offers a promising paradigm for controllable video editing, but existing methods are hampered by a reliance on cumbersome run-time guidance. We identify the root cause of this limitation as the inadequacy of current training datasets, which are often too short, low-resolution, and lack the task diversity required to teach robust temporal priors. To address this foundational data gap, we first introduce FFP-300K, a new large-scale dataset comprising 300K high-fidelity video pairs at 720p resolution and 81 frames in length, constructed via a principled two-track pipeline for diverse local and global edits. Building on this dataset, we propose a novel framework designed for true guidance-free FFP that resolves the critical tension between maintaining first-frame appearance and preserving source video motion. Architecturally, we introduce Adaptive Spatio-Temporal RoPE (AST-RoPE), which dynamically remaps positional encodings to disentangle appearance and motion references. At the objective level, we employ a self-distillation strategy where an identity propagation task acts as a powerful regularizer, ensuring long-term temporal stability and preventing semantic drift. Comprehensive experiments on the EditVerseBench benchmark demonstrate that our method significantly outperforming existing academic and commercial models by receiving about 0.2 PickScore and 0.3 VLM score improvement against these competitors.
- Abstract(参考訳): First-Frame Propagation (FFP)は、制御可能なビデオ編集のための有望なパラダイムを提供するが、既存の手法は面倒な実行時のガイダンスに依存しているため妨げられる。
この制限の根本原因は、しばしば短すぎ、低解像度であり、堅牢な時間的事前学習に必要なタスクの多様性が欠如している、現在のトレーニングデータセットの不適切さである。
FFP-300Kは720pの解像度で300Kの高忠実度ビデオペアと81フレームのフレームからなる,ローカル・グローバルな編集を多用した2トラックパイプラインによって構築された大規模データセットである。
本稿では,このデータセットをベースとして,第1フレームの外観維持とソース映像の動作の保存の致命的な緊張を解消する,真の誘導不要FFPのための新しいフレームワークを提案する。
アーキテクチャ上,アダプティブ・スパティカル・テンポラル・ロPE(AST-RoPE)を導入する。
目的レベルでは、アイデンティティ伝搬タスクが強力な正規化要因として機能し、長期的時間的安定性を確保し、セマンティックドリフトを防止できる自己蒸留方式を用いる。
EditVerseBenchベンチマークの総合的な実験により,これらの競合相手に対して0.2 PickScore と0.3 VLM のスコア向上を達成し,既存の学術的,商業的モデルを著しく上回る結果を得た。
関連論文リスト
- Local2Global query Alignment for Video Instance Segmentation [6.422775545814375]
ビデオセグメンテーション手法は、長いシーケンスの処理と段階的な変化のキャプチャに優れ、現実世界のアプリケーションに最適である。
本稿では,オンラインセグメンテーションなどのオンラインフレームワークであるLocal2Globalを紹介する。
ローカルクエリとグローバルクエリの早期アライメントを容易にするために,新しいトランスフォーマーデコーダであるL2G-alignerを提案する。
論文 参考訳(メタデータ) (2025-07-27T04:04:01Z) - Semantic Frame Interpolation [66.81586538775366]
従来のフレームタスクは、主に少数のフレーム、テキストコントロールなし、第1フレームと第2フレームの最小差のシナリオに焦点を当てていた。
最近のコミュニティ開発者は、フレーム・ツー・フレーム機能を実現するために、Wanによって表現された大きなビデオモデルを利用している。
本稿では、まず、上記の2つの設定を網羅し、複数のフレームレートでの推論をサポートする、学術的定義の観点から、新しい実用的意味フレーム補間(SFI)タスクを提案する。
論文 参考訳(メタデータ) (2025-07-07T16:25:47Z) - Lightweight Multi-Frame Integration for Robust YOLO Object Detection in Videos [11.532574301455854]
マルチフレームビデオオブジェクト検出のための高効率な手法を提案する。
我々の手法は、特に軽量モデルにおいて堅牢性を改善する。
我々はBOAT360ベンチマークデータセットを寄贈し、現実のシナリオに挑戦するマルチフレームビデオオブジェクト検出における将来の研究を支援する。
論文 参考訳(メタデータ) (2025-06-25T15:49:07Z) - Towards Scalable Modeling of Compressed Videos for Efficient Action Recognition [6.168286187549952]
提案するハイブリッドなエンドツーエンドフレームワークは,3つの重要な概念にまたがって学習を分解し,推論コストを先行技術に対して330倍に削減する。
実験により,本手法は最先端のビデオ認識性能を実現する軽量なアーキテクチャを実現することが示された。
論文 参考訳(メタデータ) (2025-03-17T21:13:48Z) - Low-Light Video Enhancement via Spatial-Temporal Consistent Decomposition [52.89441679581216]
低照度ビデオエンハンスメント(LLVE)は、激しい視認性とノイズに悩まされる動的または静的なシーンの復元を目指している。
本稿では、ビューに依存しない、ビューに依存しないコンポーネントを組み込んだ革新的なビデオ分解戦略を提案する。
我々のフレームワークは、既存のメソッドを一貫して上回り、新しいSOTAパフォーマンスを確立します。
論文 参考訳(メタデータ) (2024-05-24T15:56:40Z) - Video Dynamics Prior: An Internal Learning Approach for Robust Video
Enhancements [83.5820690348833]
外部トレーニングデータコーパスを必要としない低レベルの視覚タスクのためのフレームワークを提案する。
提案手法は,コヒーレンス・時間的テストの重み付けと統計内部統計を利用して,破損したシーケンスを最適化することでニューラルモジュールを学習する。
論文 参考訳(メタデータ) (2023-12-13T01:57:11Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。