論文の概要: Fine-grained Controllable Video Generation via Object Appearance and
Context
- arxiv url: http://arxiv.org/abs/2312.02919v1
- Date: Tue, 5 Dec 2023 17:47:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 14:59:07.771266
- Title: Fine-grained Controllable Video Generation via Object Appearance and
Context
- Title(参考訳): オブジェクトの外観とコンテキストによるきめ細かい制御可能な映像生成
- Authors: Hsin-Ping Huang, Yu-Chuan Su, Deqing Sun, Lu Jiang, Xuhui Jia, Yukun
Zhu, Ming-Hsuan Yang
- Abstract要約: 細粒度制御可能なビデオ生成法(FACTOR)を提案する。
FACTORは、オブジェクトの位置とカテゴリを含む、オブジェクトの外観とコンテキストを制御することを目的としている。
本手法は,オブジェクトの外観を微調整せずに制御し,オブジェクトごとの最適化作業を省く。
- 参考スコア(独自算出の注目度): 74.23066823064575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-video generation has shown promising results. However, by taking only
natural languages as input, users often face difficulties in providing detailed
information to precisely control the model's output. In this work, we propose
fine-grained controllable video generation (FACTOR) to achieve detailed
control. Specifically, FACTOR aims to control objects' appearances and context,
including their location and category, in conjunction with the text prompt. To
achieve detailed control, we propose a unified framework to jointly inject
control signals into the existing text-to-video model. Our model consists of a
joint encoder and adaptive cross-attention layers. By optimizing the encoder
and the inserted layer, we adapt the model to generate videos that are aligned
with both text prompts and fine-grained control. Compared to existing methods
relying on dense control signals such as edge maps, we provide a more intuitive
and user-friendly interface to allow object-level fine-grained control. Our
method achieves controllability of object appearances without finetuning, which
reduces the per-subject optimization efforts for the users. Extensive
experiments on standard benchmark datasets and user-provided inputs validate
that our model obtains a 70% improvement in controllability metrics over
competitive baselines.
- Abstract(参考訳): テキスト対ビデオ生成は有望な結果を示している。
しかし、自然言語のみを入力とすることで、モデルの出力を正確に制御するための詳細な情報の提供が困難になることが多い。
本研究では,詳細な制御を実現するためのきめ細かい制御可能なビデオ生成(FACTOR)を提案する。
特に、FACTORは、テキストプロンプトとともに、オブジェクトの外観とコンテキスト、その位置とカテゴリを制御することを目的としている。
詳細な制御を実現するために,既存のテキスト・ビデオモデルに協調的に制御信号を注入する統合フレームワークを提案する。
本モデルはジョイントエンコーダと適応クロスアテンション層からなる。
エンコーダと挿入層を最適化することにより、テキストプロンプトときめ細かい制御の両方に対応するビデオを生成するようにモデルを適応させる。
エッジマップのような密集した制御信号に依存する既存の方法と比較して,より直感的でユーザフレンドリーなインターフェースを提供し,オブジェクトレベルのきめ細かい制御を可能にした。
本手法は,オブジェクトの外観を微調整せずに制御し,オブジェクトごとの最適化作業を省く。
標準ベンチマークデータセットとユーザが提供する入力に関する広範囲な実験により、本モデルが競合ベースラインよりも70%の制御性指標を得られることを確認した。
関連論文リスト
- BlobGEN-Vid: Compositional Text-to-Video Generation with Blob Video Representations [82.94002870060045]
既存のビデオ生成モデルは、複雑なテキストプロンプトに従い、複数のオブジェクトを合成するのに苦労する。
我々は,BlobGEN-Vidというブロブグラウンドビデオ拡散モデルを開発し,ユーザがオブジェクトの動きを制御し,細かいオブジェクトの外観を制御できるようにする。
U-NetとDiTをベースとした動画拡散モデルに基づいてBlobGEN-Vidを構築する。
論文 参考訳(メタデータ) (2025-01-13T19:17:06Z) - DynamicControl: Adaptive Condition Selection for Improved Text-to-Image Generation [63.63429658282696]
多様な制御信号の動的組み合わせをサポートするDynamicControlを提案する。
様々な条件下での制御性,生成品質,構成性の観点から,DynamicControlは既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-12-04T11:54:57Z) - I2VControl: Disentangled and Unified Video Motion Synthesis Control [11.83645633418189]
I2VControlは,映像合成における複数の動作制御タスクを統一するフレームワークである。
提案手法では,映像を個々のモーションユニットに分割し,各ユニットをアンタングル制御信号で表現する。
我々の方法論は、事前訓練されたモデルのためのプラグインとしてシームレスに統合され、特定のモデルアーキテクチャに依存しないままです。
論文 参考訳(メタデータ) (2024-11-26T04:21:22Z) - DiVE: DiT-based Video Generation with Enhanced Control [23.63288169762629]
時間的・多視点的な一貫したビデオを生成するために特別に設計された第1のDiTベースのフレームワークを提案する。
具体的には、パラメータフリーな空間ビューインフレードアテンション機構を利用して、クロスビューの一貫性を保証する。
論文 参考訳(メタデータ) (2024-09-03T04:29:59Z) - EasyControl: Transfer ControlNet to Video Diffusion for Controllable Generation and Interpolation [73.80275802696815]
本稿では、ビデオ生成のためのEasyControlというユニバーサルフレームワークを提案する。
提案手法により,ユーザーは単一の条件マップで映像生成を制御できる。
その結果,UCF101とMSR-VTTのFVDおよびISが向上した。
論文 参考訳(メタデータ) (2024-08-23T11:48:29Z) - PerLDiff: Controllable Street View Synthesis Using Perspective-Layout Diffusion Models [55.080748327139176]
本稿では、3次元幾何学的情報を完全に活用した効果的なストリートビュー画像生成手法であるPerLDiffを紹介する。
この結果から,我々のPerLDiffはNuScenesおよびKITTIデータセットの生成精度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-07-08T16:46:47Z) - ECNet: Effective Controllable Text-to-Image Diffusion Models [31.21525123716149]
本稿では,条件付きテキスト・ツー・イメージモデルに対する2つの革新的なソリューションを提案する。
まず,テキスト入力を正確なアノテーション情報で符号化することで,条件の詳細性を高める空間ガイダンス(SGI)を提案する。
第二に、条件付き監督の制限を克服するため、拡散整合損失を導入する。
これにより、各ステップにおける潜時符号と入力信号との一貫性が促進され、出力の堅牢性と精度が向上する。
論文 参考訳(メタデータ) (2024-03-27T10:09:38Z) - LiFi: Lightweight Controlled Text Generation with Fine-Grained Control
Codes [46.74968005604948]
本稿では、制御されたテキスト生成のためのきめ細かい制御を備えた軽量なアプローチであるLIFIを提案する。
我々は、感情制御とトピック制御という従来の2つのタスクと、新たに提案された1つのタスクでLIFIを評価する。
論文 参考訳(メタデータ) (2024-02-10T11:53:48Z) - Cocktail: Mixing Multi-Modality Controls for Text-Conditional Image
Generation [79.8881514424969]
テキスト条件拡散モデルは多種多様な内容の高忠実度画像を生成することができる。
しかし、言語表現はしばしば、想定された目的像の曖昧な記述を示す。
様々なモダリティを1つの埋め込みに混ぜるパイプラインであるCocktailを提案する。
論文 参考訳(メタデータ) (2023-06-01T17:55:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。