論文の概要: Fine-grained Controllable Video Generation via Object Appearance and
Context
- arxiv url: http://arxiv.org/abs/2312.02919v1
- Date: Tue, 5 Dec 2023 17:47:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 14:59:07.771266
- Title: Fine-grained Controllable Video Generation via Object Appearance and
Context
- Title(参考訳): オブジェクトの外観とコンテキストによるきめ細かい制御可能な映像生成
- Authors: Hsin-Ping Huang, Yu-Chuan Su, Deqing Sun, Lu Jiang, Xuhui Jia, Yukun
Zhu, Ming-Hsuan Yang
- Abstract要約: 細粒度制御可能なビデオ生成法(FACTOR)を提案する。
FACTORは、オブジェクトの位置とカテゴリを含む、オブジェクトの外観とコンテキストを制御することを目的としている。
本手法は,オブジェクトの外観を微調整せずに制御し,オブジェクトごとの最適化作業を省く。
- 参考スコア(独自算出の注目度): 74.23066823064575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-video generation has shown promising results. However, by taking only
natural languages as input, users often face difficulties in providing detailed
information to precisely control the model's output. In this work, we propose
fine-grained controllable video generation (FACTOR) to achieve detailed
control. Specifically, FACTOR aims to control objects' appearances and context,
including their location and category, in conjunction with the text prompt. To
achieve detailed control, we propose a unified framework to jointly inject
control signals into the existing text-to-video model. Our model consists of a
joint encoder and adaptive cross-attention layers. By optimizing the encoder
and the inserted layer, we adapt the model to generate videos that are aligned
with both text prompts and fine-grained control. Compared to existing methods
relying on dense control signals such as edge maps, we provide a more intuitive
and user-friendly interface to allow object-level fine-grained control. Our
method achieves controllability of object appearances without finetuning, which
reduces the per-subject optimization efforts for the users. Extensive
experiments on standard benchmark datasets and user-provided inputs validate
that our model obtains a 70% improvement in controllability metrics over
competitive baselines.
- Abstract(参考訳): テキスト対ビデオ生成は有望な結果を示している。
しかし、自然言語のみを入力とすることで、モデルの出力を正確に制御するための詳細な情報の提供が困難になることが多い。
本研究では,詳細な制御を実現するためのきめ細かい制御可能なビデオ生成(FACTOR)を提案する。
特に、FACTORは、テキストプロンプトとともに、オブジェクトの外観とコンテキスト、その位置とカテゴリを制御することを目的としている。
詳細な制御を実現するために,既存のテキスト・ビデオモデルに協調的に制御信号を注入する統合フレームワークを提案する。
本モデルはジョイントエンコーダと適応クロスアテンション層からなる。
エンコーダと挿入層を最適化することにより、テキストプロンプトときめ細かい制御の両方に対応するビデオを生成するようにモデルを適応させる。
エッジマップのような密集した制御信号に依存する既存の方法と比較して,より直感的でユーザフレンドリーなインターフェースを提供し,オブジェクトレベルのきめ細かい制御を可能にした。
本手法は,オブジェクトの外観を微調整せずに制御し,オブジェクトごとの最適化作業を省く。
標準ベンチマークデータセットとユーザが提供する入力に関する広範囲な実験により、本モデルが競合ベースラインよりも70%の制御性指標を得られることを確認した。
関連論文リスト
- Generating Compositional Scenes via Text-to-image RGBA Instance Generation [82.63805151691024]
テキストから画像への拡散生成モデルは、退屈な急進的なエンジニアリングを犠牲にして高品質な画像を生成することができる。
本稿では, 粒度制御, 柔軟性, 相互作用性を考慮した新しい多段階生成パラダイムを提案する。
実験の結果,RGBA拡散モデルでは,オブジェクト属性を正確に制御した多種多様な高品質なインスタンスを生成できることがわかった。
論文 参考訳(メタデータ) (2024-11-16T23:44:14Z) - DiVE: DiT-based Video Generation with Enhanced Control [23.63288169762629]
時間的・多視点的な一貫したビデオを生成するために特別に設計された第1のDiTベースのフレームワークを提案する。
具体的には、パラメータフリーな空間ビューインフレードアテンション機構を利用して、クロスビューの一貫性を保証する。
論文 参考訳(メタデータ) (2024-09-03T04:29:59Z) - EasyControl: Transfer ControlNet to Video Diffusion for Controllable Generation and Interpolation [73.80275802696815]
本稿では、ビデオ生成のためのEasyControlというユニバーサルフレームワークを提案する。
提案手法により,ユーザーは単一の条件マップで映像生成を制御できる。
その結果,UCF101とMSR-VTTのFVDおよびISが向上した。
論文 参考訳(メタデータ) (2024-08-23T11:48:29Z) - VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control [74.5434726968562]
Plucker座標に基づく制御ネットライクなコンディショニング機構を用いた3次元カメラ制御のためのトランスフォーマー映像を試作する。
我々の研究は、トランスフォーマーに基づくビデオ拡散モデルのカメラ制御を可能にする最初のものである。
論文 参考訳(メタデータ) (2024-07-17T17:59:05Z) - PerlDiff: Controllable Street View Synthesis Using Perspective-Layout Diffusion Models [55.080748327139176]
PerlDiffは、3次元幾何学情報を完全に活用した効果的なストリートビュー画像生成手法である。
この結果から,我々のPerlDiffはNuScenesおよびKITTIデータセットの生成精度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-07-08T16:46:47Z) - ECNet: Effective Controllable Text-to-Image Diffusion Models [31.21525123716149]
本稿では,条件付きテキスト・ツー・イメージモデルに対する2つの革新的なソリューションを提案する。
まず,テキスト入力を正確なアノテーション情報で符号化することで,条件の詳細性を高める空間ガイダンス(SGI)を提案する。
第二に、条件付き監督の制限を克服するため、拡散整合損失を導入する。
これにより、各ステップにおける潜時符号と入力信号との一貫性が促進され、出力の堅牢性と精度が向上する。
論文 参考訳(メタデータ) (2024-03-27T10:09:38Z) - LiFi: Lightweight Controlled Text Generation with Fine-Grained Control
Codes [46.74968005604948]
本稿では、制御されたテキスト生成のためのきめ細かい制御を備えた軽量なアプローチであるLIFIを提案する。
我々は、感情制御とトピック制御という従来の2つのタスクと、新たに提案された1つのタスクでLIFIを評価する。
論文 参考訳(メタデータ) (2024-02-10T11:53:48Z) - ConditionVideo: Training-Free Condition-Guided Text-to-Video Generation [33.37279673304]
提案する条件, 映像, 入力テキストに基づいて, テキスト・ビデオ生成のためのトレーニング不要なアプローチである ConditionVideo を紹介する。
ConditionVideoはランダムノイズやシーンビデオからリアルなダイナミックビデオを生成する。
提案手法は,フレームの整合性,クリップスコア,条件精度において優れた性能を示し,他の比較手法よりも優れていた。
論文 参考訳(メタデータ) (2023-10-11T17:46:28Z) - Cocktail: Mixing Multi-Modality Controls for Text-Conditional Image
Generation [79.8881514424969]
テキスト条件拡散モデルは多種多様な内容の高忠実度画像を生成することができる。
しかし、言語表現はしばしば、想定された目的像の曖昧な記述を示す。
様々なモダリティを1つの埋め込みに混ぜるパイプラインであるCocktailを提案する。
論文 参考訳(メタデータ) (2023-06-01T17:55:32Z) - Sketching the Future (STF): Applying Conditional Control Techniques to
Text-to-Video Models [0.0]
ゼロショットテキスト・ビデオ・ジェネレーションとコントロールネットを組み合わせることで,これらのモデルの出力を改善する手法を提案する。
提案手法は,複数のスケッチフレームを入力として,これらのフレームの流れにマッチした映像出力を生成する。
論文 参考訳(メタデータ) (2023-05-10T02:33:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。