論文の概要: Text Prompting for Multi-Concept Video Customization by Autoregressive Generation
- arxiv url: http://arxiv.org/abs/2405.13951v1
- Date: Wed, 22 May 2024 19:35:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 20:23:46.671614
- Title: Text Prompting for Multi-Concept Video Customization by Autoregressive Generation
- Title(参考訳): 自動回帰生成によるマルチコンセプトビデオカスタマイズのためのテキストプロンプト
- Authors: Divya Kothandaraman, Kihyuk Sohn, Ruben Villegas, Paul Voigtlaender, Dinesh Manocha, Mohammad Babaeizadeh,
- Abstract要約: 本稿では,事前訓練されたテキスト・ツー・ビデオ(T2V)モデルのマルチコンセプト・カスタマイズ手法を提案する。
我々は様々な概念とそれに対応する相互作用を連続的に自己回帰的に生成する。
人間の評価に加えて,ビデオCLIPとDINOスコアを用いて定量的に評価を行った。
- 参考スコア(独自算出の注目度): 58.40155067630205
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a method for multi-concept customization of pretrained text-to-video (T2V) models. Intuitively, the multi-concept customized video can be derived from the (non-linear) intersection of the video manifolds of the individual concepts, which is not straightforward to find. We hypothesize that sequential and controlled walking towards the intersection of the video manifolds, directed by text prompting, leads to the solution. To do so, we generate the various concepts and their corresponding interactions, sequentially, in an autoregressive manner. Our method can generate videos of multiple custom concepts (subjects, action and background) such as a teddy bear running towards a brown teapot, a dog playing violin and a teddy bear swimming in the ocean. We quantitatively evaluate our method using videoCLIP and DINO scores, in addition to human evaluation. Videos for results presented in this paper can be found at https://github.com/divyakraman/MultiConceptVideo2024.
- Abstract(参考訳): 本稿では,事前訓練されたテキスト・ツー・ビデオ(T2V)モデルのマルチコンセプト・カスタマイズ手法を提案する。
直感的には、マルチコンセプトのカスタマイズされたビデオは、個々の概念の動画多様体の(非線形の)交叉から導き出すことができるが、それは簡単には見つからない。
逐次的かつ制御されたビデオ多様体の交差点への歩行は、テキストプロンプトによって誘導され、その解に導かれるという仮説を立てる。
そこで我々は,様々な概念とそれに対応する相互作用を連続的に自己回帰的に生成する。
提案手法では,茶色のティーポットに向かって走るテディベア,バイオリンを弾く犬,海で泳いでいるテディベアなど,さまざまなコンセプト(物体,行動,背景)のビデオを生成することができる。
人間の評価に加えて,ビデオCLIPとDINOスコアを用いて定量的に評価を行った。
この論文で提示された結果のビデオはhttps://github.com/divyakraman/MultiConceptVideo2024で見ることができる。
関連論文リスト
- Movie Weaver: Tuning-Free Multi-Concept Video Personalization with Anchored Prompts [49.63959518905243]
マルチコンセプト統合に基づくビデオパーソナライズのための新しい手法を提案する。
Movie Weaverは、顔、体、動物画像を含む複数のコンセプトをシームレスに1つのビデオに織り込み、1つのモデルで柔軟な組み合わせを可能にする。
評価の結果,Movie Weaverはアイデンティティの保存と全体的な品質において,既存のマルチコンセプトビデオパーソナライズ手法よりも優れていた。
論文 参考訳(メタデータ) (2025-02-04T22:03:26Z) - CustomTTT: Motion and Appearance Customized Video Generation via Test-Time Training [35.43906754134253]
本稿では,映像の外観や動きを簡単にジョイントできるCustomTTTを提案する。
それぞれのLoRAは個別に訓練されているので、組み合わせた後にパラメータを更新するための新しいテストタイムトレーニング手法を提案する。
本手法は, 定性評価と定量的評価の両面で, 最先端の作業に優れる。
論文 参考訳(メタデータ) (2024-12-20T08:05:13Z) - Video Creation by Demonstration [59.389591010842636]
我々は、条件付き将来のフレーム予測によってラベルなしビデオから学習する自己教師型トレーニングアプローチである$delta$-Diffusionを提案する。
映像基盤モデルと外観ボトルネック設計を併用して,実演映像から動作遅延を抽出し,生成プロセスの条件付けを行う。
実証的に、$delta$-Diffusionは人間の好みと大規模マシン評価の両方の観点から、関連するベースラインを上回っている。
論文 参考訳(メタデータ) (2024-12-12T18:41:20Z) - TweedieMix: Improving Multi-Concept Fusion for Diffusion-based Image/Video Generation [67.97044071594257]
TweedieMixは、カスタマイズされた拡散モデルを構成する新しい方法である。
我々のフレームワークは、画像とビデオの拡散モデルに力ずくで拡張できる。
論文 参考訳(メタデータ) (2024-10-08T01:06:01Z) - MEVG: Multi-event Video Generation with Text-to-Video Models [18.06640097064693]
本稿では,ユーザから複数の個々の文が与えられた複数のイベントを示すビデオを生成する,拡散に基づく新しいビデオ生成手法を提案する。
本手法は, 微調整処理を伴わずに, 事前学習したテキスト・ビデオ生成モデルを使用するため, 大規模なビデオデータセットを必要としない。
提案手法は,コンテンツとセマンティクスの時間的コヒーレンシーの観点から,他のビデオ生成モデルよりも優れている。
論文 参考訳(メタデータ) (2023-12-07T06:53:25Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - Show Me What and Tell Me How: Video Synthesis via Multimodal
Conditioning [36.85533835408882]
本研究は,テキストと画像を共同あるいは別々に提供するマルチモーダルビデオ生成フレームワークを提案する。
本稿では,自己学習で訓練した新しいビデオトークンと,ビデオトークンをサンプリングするためのマスク予測アルゴリズムを提案する。
我々のフレームワークは、セグメンテーションマスク、描画、部分閉塞画像など、様々な視覚的モダリティを組み込むことができる。
論文 参考訳(メタデータ) (2022-03-04T21:09:13Z) - Deep Video Prior for Video Consistency and Propagation [58.250209011891904]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。
提案手法は,大規模なデータセットではなく,オリジナルビデオとプロセッシングビデオのペアでのみ訓練される。
我々は、Deep Video Priorでビデオ上で畳み込みニューラルネットワークをトレーニングすることで、時間的一貫性を実現することができることを示す。
論文 参考訳(メタデータ) (2022-01-27T16:38:52Z) - Self-supervised Video Representation Learning by Pace Prediction [48.029602040786685]
本稿では,ビデオペース予測による自己指導型映像表現学習の課題に対処する。
人間の視覚系がビデオのペースに敏感であるという観察に由来する。
我々は、異なるペースでトレーニングクリップをランダムにサンプリングし、ニューラルネットワークに各ビデオクリップのペースを特定するよう依頼する。
論文 参考訳(メタデータ) (2020-08-13T12:40:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。