論文の概要: Edit2Interp: Adapting Image Foundation Models from Spatial Editing to Video Frame Interpolation with Few-Shot Learning
- arxiv url: http://arxiv.org/abs/2603.15003v1
- Date: Mon, 16 Mar 2026 09:07:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:57.898052
- Title: Edit2Interp: Adapting Image Foundation Models from Spatial Editing to Video Frame Interpolation with Few-Shot Learning
- Title(参考訳): Edit2Interp:空間編集からビデオフレーム補間への画像基礎モデルの適用
- Authors: Nasrin Rahimi, Mısra Yavuz, Burak Can Biner, Yunus Bilge Kurt, Ahmet Rasim Emirdağı, Süleyman Aslan, Görkay Aydemir, M. Akın Yılmaz, A. Murat Tekalp,
- Abstract要約: ビデオフレーム補間(VFI)において,Low-Rank Adaptation (LoRA) を用いた64-256のトレーニングサンプルのみを用いて,大規模な画像編集モデル(Qwen-Image-Edit)を適用可能であることを示す。
我々の研究は、基礎画像編集モデルが時間的課題の未解決の可能性を秘めており、資源制約のあるシナリオにおける映像合成のためのデータ効率の高い経路を提供するものであることを証明している。
- 参考スコア(独自算出の注目度): 5.6616478694920405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained image editing models exhibit strong spatial reasoning and object-aware transformation capabilities acquired from billions of image-text pairs, yet they possess no explicit temporal modeling. This paper demonstrates that these spatial priors can be repurposed to unlock temporal synthesis capabilities through minimal adaptation - without introducing any video-specific architecture or motion estimation modules. We show that a large image editing model (Qwen-Image-Edit), originally designed solely for static instruction-based edits, can be adapted for Video Frame Interpolation (VFI) using only 64-256 training samples via Low-Rank Adaptation (LoRA). Our core contribution is revealing that the model's inherent understanding of "how objects transform" in static scenes contains latent temporal reasoning that can be activated through few-shot fine-tuning. While the baseline model completely fails at producing coherent intermediate frames, our parameter-efficient adaptation successfully unlocks its interpolation capability. Rather than competing with task-specific VFI methods trained from scratch on massive datasets, our work establishes that foundation image editing models possess untapped potential for temporal tasks, offering a data-efficient pathway for video synthesis in resource-constrained scenarios. This bridges the gap between image manipulation and video understanding, suggesting that spatial and temporal reasoning may be more intertwined in foundation models than previously recognized
- Abstract(参考訳): 事前訓練された画像編集モデルは、数十億の画像テキストペアから取得した強力な空間的推論とオブジェクト認識変換能力を示すが、明示的な時間的モデリングは持っていない。
本稿では、ビデオ固有のアーキテクチャや動き推定モジュールを導入することなく、時間的合成機能を最小限の適応で解放するために、これらの空間的先行を再利用できることを実証する。
画像編集モデル(Qwen-Image-Edit)は,ビデオフレーム補間(VFI)に対して,Low-Rank Adaptation (LoRA) を用いた64-256のトレーニングサンプルのみを用いて適応可能であることを示す。
私たちのコアコントリビューションは、静的なシーンにおける"オブジェクトの変換方法"に関するモデル固有の理解が、数ショットの微調整によってアクティベートできる潜時的推論を含んでいることを明らかにすることです。
ベースラインモデルは完全にコヒーレントな中間フレームの生成に失敗するが、パラメータ効率の適応は補間能力の解放に成功している。
大規模なデータセットをスクラッチからトレーニングしたタスク固有のVFI手法と競合するのではなく、我々の研究は、基礎画像編集モデルが時間的タスクに未対応の可能性を秘めており、リソース制約のあるシナリオにおけるビデオ合成のためのデータ効率のよい経路を提供していることを証明している。
これは画像操作と映像理解のギャップを橋渡しし、空間的および時間的推論が以前認識されたよりも基礎モデルに絡み合う可能性があることを示唆する。
関連論文リスト
- Video4Edit: Viewing Image Editing as a Degenerate Temporal Process [24.8621496006791]
マルチモーダル基礎モデルは、命令駆動の画像生成と編集を真にクロスモーダルで協調的な体制に推進した。
我々は、時間モデリングのレンズを通してこの課題を再考する。
この視点は、ビデオ事前学習から単一フレームの進化を先取りし、非常にデータ効率のよい微調整体制を実現する。
論文 参考訳(メタデータ) (2025-11-22T17:30:55Z) - VALA: Learning Latent Anchors for Training-Free and Temporally Consistent [29.516179213427694]
本稿では,キーフレームを適応的に選択し,その潜在機能をセマンティックアンカーに圧縮し,一貫したビデオ編集を行う変分アライメントモジュールであるVALAを提案する。
本手法はトレーニング不要なテキスト・画像ベースのビデオ編集モデルに完全に統合することができる。
論文 参考訳(メタデータ) (2025-10-27T03:44:11Z) - Subject-driven Video Generation via Disentangled Identity and Motion [52.54835936914813]
本稿では,ゼロショットにおける時間的ダイナミクスから被験者固有の学習を分離し,追加のチューニングを伴わずに,主題駆動のカスタマイズビデオ生成モデルを訓練することを提案する。
提案手法は、ゼロショット設定で既存のビデオカスタマイズモデルよりも優れた、強力な被写体整合性とスケーラビリティを実現する。
論文 参考訳(メタデータ) (2025-04-23T06:48:31Z) - EIDT-V: Exploiting Intersections in Diffusion Trajectories for Model-Agnostic, Zero-Shot, Training-Free Text-to-Video Generation [26.888320234592978]
ゼロショット、トレーニングなし、画像ベースのテキスト・ツー・ビデオ生成は、既存の画像ベースの拡散モデルを用いてビデオを生成することを目的とした新興分野である。
拡散軌道の交叉を用いて,潜在値のみを扱うモデルに依存しない手法を提案する。
文脈内で訓練されたLLMはコヒーレントなフレームワイドプロンプトを生成するために使用され、もう1つはフレーム間の差異を特定するために使用される。
提案手法は,多様な画像生成モデルを扱う場合,より柔軟でありながら,最先端の性能が向上する。
論文 参考訳(メタデータ) (2025-04-09T13:11:09Z) - Multi-subject Open-set Personalization in Video Generation [110.02124633005516]
我々は、マルチオブジェクトでオープンなパーソナライズ機能を備えたビデオモデルとして、Video Alchemist $-$を提示する。
本モデルは,各条件付き参照画像と対応する主観レベルテキストプロンプトを融合するDiffusion Transformerモジュール上に構築されている。
本手法は,定量評価と定性評価の両方において,既存のパーソナライズ手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-01-10T18:59:54Z) - VASE: Object-Centric Appearance and Shape Manipulation of Real Videos [108.60416277357712]
本研究では,オブジェクトの外観と,特にオブジェクトの精密かつ明示的な構造的変更を実行するために設計された,オブジェクト中心のフレームワークを紹介する。
我々は,事前学習した画像条件拡散モデル上にフレームワークを構築し,時間次元を扱うためのレイヤを統合するとともに,形状制御を実現するためのトレーニング戦略とアーキテクチャ修正を提案する。
我々は,画像駆動映像編集タスクにおいて,最先端技術に類似した性能を示し,新しい形状編集機能を示す手法について検討した。
論文 参考訳(メタデータ) (2024-01-04T18:59:24Z) - Fine-tuned CLIP Models are Efficient Video Learners [54.96069171726668]
画像テキストペアによる大規模マルチモーダルトレーニングは、CLIPモデルに強力な一般化を与える。
Video Fine-Tuned CLIP (ViFi-CLIP) ベースラインは一般的に、画像からビデオへの領域ギャップを埋めるのに十分である。
論文 参考訳(メタデータ) (2022-12-06T18:59:58Z) - StyleVideoGAN: A Temporal Generative Model using a Pretrained StyleGAN [70.31913835035206]
本稿では,映像合成問題に対する新しいアプローチを提案する。
トレーニング済みのStyleGANネットワークを利用することで、トレーニング対象の外観を制御できます。
我々の時間的アーキテクチャは、RGBフレームのシーケンスではなく、StyleGANの潜在符号のシーケンスに基づいて訓練される。
論文 参考訳(メタデータ) (2021-07-15T09:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。