論文の概要: Frame In-N-Out: Unbounded Controllable Image-to-Video Generation
- arxiv url: http://arxiv.org/abs/2505.21491v1
- Date: Tue, 27 May 2025 17:56:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.850278
- Title: Frame In-N-Out: Unbounded Controllable Image-to-Video Generation
- Title(参考訳): Frame In-N-Out:非有界制御可能な画像対ビデオ生成
- Authors: Boyang Wang, Xuweiyi Chen, Matheus Gadelha, Zezhou Cheng,
- Abstract要約: 制御性、時間的コヒーレンス、詳細合成は、ビデオ生成において最も重要な課題である。
我々は、フレームインとフレームアウトとして知られる、一般的には使われていないが探索されていない撮影技術に焦点を当てる。
我々は、半自動でキュレートされた新しいデータセット、この設定をターゲットとした包括的評価プロトコル、および効率的なID保存型モーションコントロール可能なビデオ拡散トランスフォーマアーキテクチャを導入する。
- 参考スコア(独自算出の注目度): 12.556320730925702
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Controllability, temporal coherence, and detail synthesis remain the most critical challenges in video generation. In this paper, we focus on a commonly used yet underexplored cinematic technique known as Frame In and Frame Out. Specifically, starting from image-to-video generation, users can control the objects in the image to naturally leave the scene or provide breaking new identity references to enter the scene, guided by user-specified motion trajectory. To support this task, we introduce a new dataset curated semi-automatically, a comprehensive evaluation protocol targeting this setting, and an efficient identity-preserving motion-controllable video Diffusion Transformer architecture. Our evaluation shows that our proposed approach significantly outperforms existing baselines.
- Abstract(参考訳): 制御性、時間的コヒーレンス、詳細合成は、ビデオ生成において最も重要な課題である。
本稿では,フレーム・イン・フレーム・アウト (Frame In and Frame Out) として知られる,一般的には使われていないが未探索の撮影技術に焦点を当てる。
具体的には、画像から映像への生成から、ユーザーは画像内のオブジェクトをコントロールして自然にシーンを離れたり、ユーザーが特定したモーショントラジェクトリによって誘導されたシーンに入るための新しいアイデンティティ参照を提供したりすることができる。
このタスクを支援するために、半自動でキュレートされた新しいデータセット、この設定をターゲットとした包括的な評価プロトコル、および効率的なID保存型モーションコントロール可能なビデオ拡散トランスフォーマアーキテクチャを導入する。
評価の結果,提案手法は既存のベースラインを著しく上回ることがわかった。
関連論文リスト
- Enhancing Self-Supervised Fine-Grained Video Object Tracking with Dynamic Memory Prediction [5.372301053935416]
本稿では,複数の参照フレームを用いた動的メモリ予測フレームワークを提案する。
提案アルゴリズムは,2つの細粒度ビデオオブジェクト追跡タスクにおいて,最先端の自己教師技術より優れる。
論文 参考訳(メタデータ) (2025-04-30T14:29:04Z) - Subject-driven Video Generation via Disentangled Identity and Motion [52.54835936914813]
本稿では,ゼロショットにおける時間的ダイナミクスから被験者固有の学習を分離し,追加のチューニングを伴わずに,主題駆動のカスタマイズビデオ生成モデルを訓練することを提案する。
提案手法は、ゼロショット設定で既存のビデオカスタマイズモデルよりも優れた、強力な被写体整合性とスケーラビリティを実現する。
論文 参考訳(メタデータ) (2025-04-23T06:48:31Z) - CustomVideoX: 3D Reference Attention Driven Dynamic Adaptation for Zero-Shot Customized Video Diffusion Transformers [15.558659099600822]
CustomVideoXは、LoRAパラメータをトレーニングして参照機能を抽出することで、事前トレーニングされたビデオネットワークを活用する。
本稿では,参照画像特徴の直接的かつ同時エンゲージメントを可能にする3D参照注意を提案する。
実験の結果, CustomVideoXはビデオの一貫性や品質という点で既存手法よりも優れていた。
論文 参考訳(メタデータ) (2025-02-10T14:50:32Z) - MagDiff: Multi-Alignment Diffusion for High-Fidelity Video Generation and Editing [90.06041718086317]
我々は、高忠実度ビデオ生成と編集の両方のタスクに対して、MagDiffと呼ばれる統合多重配位拡散を提案する。
提案したMagDiffは、主観駆動アライメント、適応プロンプトアライメント、高忠実アライメントを含む3種類のアライメントを導入している。
論文 参考訳(メタデータ) (2023-11-29T03:36:07Z) - Aggregating Nearest Sharp Features via Hybrid Transformers for Video Deblurring [70.06559269075352]
本稿では,隣接するフレームと既存のシャープフレームの両方を特徴集約のためにハイブリッドトランスフォーマーを用いて活用するビデオデブロアリング手法を提案する。
検出されたシャープフレームから最も近いシャープ特徴を集約するために,マルチスケールマッチング機能を備えたグローバルトランスを利用する。
提案手法は,定量的な計測値と視覚的品質の観点から,最先端のビデオデブロアリング法,およびイベント駆動ビデオデブロアリング法より優れる。
論文 参考訳(メタデータ) (2023-09-13T16:12:11Z) - Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。
我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。
本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-05-06T09:07:01Z) - Unfolding a blurred image [36.519356428362286]
我々は、教師なしの方法でシャープビデオから動きの表現を学習する。
次に、ビデオ再構成の代用タスクを実行する畳み込みリカレントビデオオートエンコーダネットワークを訓練する。
ぼやけた画像のためのモーションエンコーダのガイドトレーニングに使用される。
このネットワークは、ぼやけた画像から埋め込み動作情報を抽出し、トレーニングされたリカレントビデオデコーダとともにシャープなビデオを生成する。
論文 参考訳(メタデータ) (2022-01-28T09:39:55Z) - Siamese Network with Interactive Transformer for Video Object
Segmentation [34.202137199782804]
本稿では,SITVOSと呼ばれる対話型トランスフォーマーを設計したネットワークを提案し,過去のフレームから現在のフレームへの効果的なコンテキスト伝搬を実現する。
過去のフレームと現在のフレームの両方のバックボーン機能を抽出するためにバックボーンアーキテクチャを使用します。
論文 参考訳(メタデータ) (2021-12-28T03:38:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。