論文の概要: TrailBlazer: Trajectory Control for Diffusion-Based Video Generation
- arxiv url: http://arxiv.org/abs/2401.00896v2
- Date: Mon, 8 Apr 2024 18:40:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 19:47:12.937074
- Title: TrailBlazer: Trajectory Control for Diffusion-Based Video Generation
- Title(参考訳): TrailBlazer:拡散映像生成のための軌道制御
- Authors: Wan-Duo Kurt Ma, J. P. Lewis, W. Bastiaan Kleijn,
- Abstract要約: テキスト・ツー・ビデオ(T2V)生成における制御性はしばしば課題である。
我々はキーフレーミングの概念を導入し、対象の軌跡と全体の外観を移動境界ボックスと対応するプロンプトの両方でガイドできるようにする。
箱の大きさが大きくなるにつれて、視界や仮想カメラへの移動といった新たな効果が生まれます。
- 参考スコア(独自算出の注目度): 11.655256653219604
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Within recent approaches to text-to-video (T2V) generation, achieving controllability in the synthesized video is often a challenge. Typically, this issue is addressed by providing low-level per-frame guidance in the form of edge maps, depth maps, or an existing video to be altered. However, the process of obtaining such guidance can be labor-intensive. This paper focuses on enhancing controllability in video synthesis by employing straightforward bounding boxes to guide the subject in various ways, all without the need for neural network training, finetuning, optimization at inference time, or the use of pre-existing videos. Our algorithm, TrailBlazer, is constructed upon a pre-trained (T2V) model, and easy to implement. The subject is directed by a bounding box through the proposed spatial and temporal attention map editing. Moreover, we introduce the concept of keyframing, allowing the subject trajectory and overall appearance to be guided by both a moving bounding box and corresponding prompts, without the need to provide a detailed mask. The method is efficient, with negligible additional computation relative to the underlying pre-trained model. Despite the simplicity of the bounding box guidance, the resulting motion is surprisingly natural, with emergent effects including perspective and movement toward the virtual camera as the box size increases.
- Abstract(参考訳): テキスト・ツー・ビデオ(T2V)生成への最近のアプローチでは、合成ビデオの制御性を達成することがしばしば課題である。
通常、この問題はエッジマップ、深度マップ、あるいは変更すべき既存のビデオという形で、低レベルのフレーム単位のガイダンスを提供することによって解決される。
しかし、そのような指導を得る過程は労働集約的である。
本稿では、ニューラルネットワークのトレーニング、微調整、推論時の最適化、既存のビデオの使用を必要とせず、素直なバウンディングボックスを用いることで、映像合成における制御性の向上に焦点をあてる。
我々のアルゴリズムであるTraceBlazerは、事前訓練された(T2V)モデルに基づいて構築されており、実装が容易である。
対象は、提案した空間的・時間的注意マップの編集を通じて、バウンディングボックスによって指示される。
さらに,キーフレーミングの概念を導入し,移動境界ボックスと対応するプロンプトの両方で対象の軌跡や外観をガイドできるようにし,詳細なマスクを提供する必要がなくなる。
この方法は効率的であり、基礎となる事前訓練されたモデルに対する追加計算は無視できる。
箱の大きさが大きくなるにつれて、視界や仮想カメラへの移動といった新たな効果が生まれます。
関連論文リスト
- SG-I2V: Self-Guided Trajectory Control in Image-to-Video Generation [22.693060144042196]
画像からビデオへ生成する方法は、印象的な、写真リアリスティックな品質を実現した。
オブジェクトの動きやカメラの動きなど、生成されたビデオの特定の要素を調整することは、しばしば試行錯誤の面倒なプロセスである。
本稿では,自己誘導画像生成のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-07T18:56:11Z) - DreamVideo-2: Zero-Shot Subject-Driven Video Customization with Precise Motion Control [42.506988751934685]
本研究では、特定の主題と動きの軌跡でビデオを生成することができるゼロショットビデオカスタマイズフレームワークDreamVideo-2を提案する。
具体的には,対象学習におけるモデル固有の能力を活用する参照アテンションを導入する。
我々は,ボックスマスクの頑健な動作信号を完全に活用して,高精度な動作制御を実現するためのマスク誘導型モーションモジュールを考案した。
論文 参考訳(メタデータ) (2024-10-17T17:52:57Z) - COVE: Unleashing the Diffusion Feature Correspondence for Consistent Video Editing [57.76170824395532]
ビデオ編集は新たな課題であり、現在のほとんどの手法では、ソースビデオを編集するために、事前訓練されたテキスト・トゥ・イメージ(T2I)拡散モデルを採用している。
我々は,高品質で一貫したビデオ編集を実現するために,COVE(Cor correspondingence-guided Video Editing)を提案する。
COVEは、追加のトレーニングや最適化を必要とせずに、事前訓練されたT2I拡散モデルにシームレスに統合することができる。
論文 参考訳(メタデータ) (2024-06-13T06:27:13Z) - Neuromorphic Synergy for Video Binarization [54.195375576583864]
バイモーダルオブジェクトは視覚システムによって容易に認識できる情報を埋め込む視覚形式として機能する。
ニューロモルフィックカメラは、動きのぼかしを緩和する新しい機能を提供するが、最初にブルーを脱色し、画像をリアルタイムでバイナライズするのは簡単ではない。
本稿では,イベント空間と画像空間の両方で独立に推論を行うために,バイモーダル目標特性の事前知識を活用するイベントベースバイナリ再構築手法を提案する。
また、このバイナリ画像を高フレームレートバイナリビデオに伝搬する効率的な統合手法も開発している。
論文 参考訳(メタデータ) (2024-02-20T01:43:51Z) - Boximator: Generating Rich and Controllable Motions for Video Synthesis [12.891562157919237]
Boximatorは、きめ細かいモーションコントロールのための新しいアプローチである。
Boximatorは既存のビデオ拡散モデルのプラグインとして機能する。
最先端のビデオ品質(FVD)スコアを達成し、2つのベースモデルを改善し、ボックス制約を組み込んだ後にさらに強化する。
論文 参考訳(メタデータ) (2024-02-02T16:59:48Z) - DragNUWA: Fine-grained Control in Video Generation by Integrating Text,
Image, and Trajectory [126.4597063554213]
DragNUWAは、オープンドメイン拡散に基づくビデオ生成モデルである。
意味的、空間的、時間的視点からビデオ内容のきめ細かい制御を提供する。
本実験はDragNUWAの有効性を検証し,ビデオ生成における微粒化制御における優れた性能を示した。
論文 参考訳(メタデータ) (2023-08-16T01:43:41Z) - Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。
本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。
我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z) - Self-supervised Amodal Video Object Segmentation [57.929357732733926]
アモーダル知覚は、部分的に隠されている物体の完全な形状を推測する必要がある。
本稿では、アモーダルビデオオブジェクトセグメンテーション(SaVos)の新しいフレームワークを開発する。
論文 参考訳(メタデータ) (2022-10-23T14:09:35Z) - Unsupervised Video Interpolation by Learning Multilayered 2.5D Motion
Fields [75.81417944207806]
本稿では,ビデオフレーム学習において,単一のビデオのみを必要とする自己教師型アプローチを提案する。
時間変化運動場上に定義された通常の微分可能方程式(ODE)を解くことにより,映像の動きをパラメータ化する。
この暗黙的な神経表現は、ビデオを時空間連続体として学習し、任意の時間分解能でフレーム時間連続体を可能にする。
論文 参考訳(メタデータ) (2022-04-21T06:17:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。