論文の概要: Fine-grained Controllable Video Generation via Object Appearance and
Context
- arxiv url: http://arxiv.org/abs/2312.02919v1
- Date: Tue, 5 Dec 2023 17:47:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 14:59:07.771266
- Title: Fine-grained Controllable Video Generation via Object Appearance and
Context
- Title(参考訳): オブジェクトの外観とコンテキストによるきめ細かい制御可能な映像生成
- Authors: Hsin-Ping Huang, Yu-Chuan Su, Deqing Sun, Lu Jiang, Xuhui Jia, Yukun
Zhu, Ming-Hsuan Yang
- Abstract要約: 細粒度制御可能なビデオ生成法(FACTOR)を提案する。
FACTORは、オブジェクトの位置とカテゴリを含む、オブジェクトの外観とコンテキストを制御することを目的としている。
本手法は,オブジェクトの外観を微調整せずに制御し,オブジェクトごとの最適化作業を省く。
- 参考スコア(独自算出の注目度): 74.23066823064575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-video generation has shown promising results. However, by taking only
natural languages as input, users often face difficulties in providing detailed
information to precisely control the model's output. In this work, we propose
fine-grained controllable video generation (FACTOR) to achieve detailed
control. Specifically, FACTOR aims to control objects' appearances and context,
including their location and category, in conjunction with the text prompt. To
achieve detailed control, we propose a unified framework to jointly inject
control signals into the existing text-to-video model. Our model consists of a
joint encoder and adaptive cross-attention layers. By optimizing the encoder
and the inserted layer, we adapt the model to generate videos that are aligned
with both text prompts and fine-grained control. Compared to existing methods
relying on dense control signals such as edge maps, we provide a more intuitive
and user-friendly interface to allow object-level fine-grained control. Our
method achieves controllability of object appearances without finetuning, which
reduces the per-subject optimization efforts for the users. Extensive
experiments on standard benchmark datasets and user-provided inputs validate
that our model obtains a 70% improvement in controllability metrics over
competitive baselines.
- Abstract(参考訳): テキスト対ビデオ生成は有望な結果を示している。
しかし、自然言語のみを入力とすることで、モデルの出力を正確に制御するための詳細な情報の提供が困難になることが多い。
本研究では,詳細な制御を実現するためのきめ細かい制御可能なビデオ生成(FACTOR)を提案する。
特に、FACTORは、テキストプロンプトとともに、オブジェクトの外観とコンテキスト、その位置とカテゴリを制御することを目的としている。
詳細な制御を実現するために,既存のテキスト・ビデオモデルに協調的に制御信号を注入する統合フレームワークを提案する。
本モデルはジョイントエンコーダと適応クロスアテンション層からなる。
エンコーダと挿入層を最適化することにより、テキストプロンプトときめ細かい制御の両方に対応するビデオを生成するようにモデルを適応させる。
エッジマップのような密集した制御信号に依存する既存の方法と比較して,より直感的でユーザフレンドリーなインターフェースを提供し,オブジェクトレベルのきめ細かい制御を可能にした。
本手法は,オブジェクトの外観を微調整せずに制御し,オブジェクトごとの最適化作業を省く。
標準ベンチマークデータセットとユーザが提供する入力に関する広範囲な実験により、本モデルが競合ベースラインよりも70%の制御性指標を得られることを確認した。
関連論文リスト
- LiFi: Lightweight Controlled Text Generation with Fine-Grained Control
Codes [46.74968005604948]
本稿では、制御されたテキスト生成のためのきめ細かい制御を備えた軽量なアプローチであるLIFIを提案する。
我々は、感情制御とトピック制御という従来の2つのタスクと、新たに提案された1つのタスクでLIFIを評価する。
論文 参考訳(メタデータ) (2024-02-10T11:53:48Z) - SparseCtrl: Adding Sparse Controls to Text-to-Video Diffusion Models [84.71887272654865]
SparseCtrlは時間的にスパース信号で柔軟な構造制御を可能にする。
トレーニング済みのT2Vモデルに触ることなく、これらのスパース信号を処理するための追加条件が組み込まれている。
提案手法はスケッチ,深度マップ,RGB画像など,さまざまなモダリティと互換性がある。
論文 参考訳(メタデータ) (2023-11-28T16:33:08Z) - ConditionVideo: Training-Free Condition-Guided Text-to-Video Generation [35.803869952494686]
提案する条件, 映像, 入力テキストに基づいて, テキスト・ビデオ生成のためのトレーニング不要なアプローチである ConditionVideo を紹介する。
ConditionVideoはランダムノイズやシーンビデオからリアルなダイナミックビデオを生成する。
提案手法は,フレームの整合性,クリップスコア,条件精度において優れた性能を示し,他の比較手法よりも優れていた。
論文 参考訳(メタデータ) (2023-10-11T17:46:28Z) - DragNUWA: Fine-grained Control in Video Generation by Integrating Text,
Image, and Trajectory [126.4597063554213]
DragNUWAは、オープンドメイン拡散に基づくビデオ生成モデルである。
意味的、空間的、時間的視点からビデオ内容のきめ細かい制御を提供する。
本実験はDragNUWAの有効性を検証し,ビデオ生成における微粒化制御における優れた性能を示した。
論文 参考訳(メタデータ) (2023-08-16T01:43:41Z) - Cocktail: Mixing Multi-Modality Controls for Text-Conditional Image
Generation [79.8881514424969]
テキスト条件拡散モデルは多種多様な内容の高忠実度画像を生成することができる。
しかし、言語表現はしばしば、想定された目的像の曖昧な記述を示す。
様々なモダリティを1つの埋め込みに混ぜるパイプラインであるCocktailを提案する。
論文 参考訳(メタデータ) (2023-06-01T17:55:32Z) - Uni-ControlNet: All-in-One Control to Text-to-Image Diffusion Models [82.19740045010435]
ローカルコントロールとグローバルコントロールの同時利用を可能にする統合フレームワークであるUni-ControlNetを紹介した。
既存の方法とは異なり、Uni-ControlNetは、凍結した事前訓練されたテキスト-画像拡散モデル上に2つのアダプタを微調整するだけでよい。
Uni-ControlNetは、制御性、生成品質、構成性の観点から、既存のメソッドよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:58Z) - Control-A-Video: Controllable Text-to-Video Generation with Diffusion
Models [52.512109160994655]
本稿では,制御可能なテキスト・ツー・ビデオ(T2V)拡散モデルであるコントロール・ア・ビデオについて述べる。
オブジェクトの一貫性を改善するために、Control-A-Videoは動画生成にモーション・プレッションとコンテント・プレッションを統合する。
本モデルでは, 資源効率の収束を実現し, きめ細かい制御で一貫したコヒーレントな映像を生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z) - Sketching the Future (STF): Applying Conditional Control Techniques to
Text-to-Video Models [0.0]
ゼロショットテキスト・ビデオ・ジェネレーションとコントロールネットを組み合わせることで,これらのモデルの出力を改善する手法を提案する。
提案手法は,複数のスケッチフレームを入力として,これらのフレームの流れにマッチした映像出力を生成する。
論文 参考訳(メタデータ) (2023-05-10T02:33:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。