Fugu-MT 論文翻訳(概要): Text Prompting for Multi-Concept Video Customization by Autoregressive Generation

論文の概要: Text Prompting for Multi-Concept Video Customization by Autoregressive Generation

arxiv url: http://arxiv.org/abs/2405.13951v1
Date: Wed, 22 May 2024 19:35:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-24 20:23:46.671614
Title: Text Prompting for Multi-Concept Video Customization by Autoregressive Generation
Title（参考訳）: 自動回帰生成によるマルチコンセプトビデオカスタマイズのためのテキストプロンプト
Authors: Divya Kothandaraman, Kihyuk Sohn, Ruben Villegas, Paul Voigtlaender, Dinesh Manocha, Mohammad Babaeizadeh,
Abstract要約: 本稿では,事前訓練されたテキスト・ツー・ビデオ(T2V)モデルのマルチコンセプト・カスタマイズ手法を提案する。我々は様々な概念とそれに対応する相互作用を連続的に自己回帰的に生成する。人間の評価に加えて,ビデオCLIPとDINOスコアを用いて定量的に評価を行った。
参考スコア（独自算出の注目度）: 58.40155067630205
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present a method for multi-concept customization of pretrained text-to-video (T2V) models. Intuitively, the multi-concept customized video can be derived from the (non-linear) intersection of the video manifolds of the individual concepts, which is not straightforward to find. We hypothesize that sequential and controlled walking towards the intersection of the video manifolds, directed by text prompting, leads to the solution. To do so, we generate the various concepts and their corresponding interactions, sequentially, in an autoregressive manner. Our method can generate videos of multiple custom concepts (subjects, action and background) such as a teddy bear running towards a brown teapot, a dog playing violin and a teddy bear swimming in the ocean. We quantitatively evaluate our method using videoCLIP and DINO scores, in addition to human evaluation. Videos for results presented in this paper can be found at https://github.com/divyakraman/MultiConceptVideo2024.
Abstract（参考訳）: 本稿では,事前訓練されたテキスト・ツー・ビデオ(T2V)モデルのマルチコンセプト・カスタマイズ手法を提案する。直感的には、マルチコンセプトのカスタマイズされたビデオは、個々の概念の動画多様体の(非線形の)交叉から導き出すことができるが、それは簡単には見つからない。逐次的かつ制御されたビデオ多様体の交差点への歩行は、テキストプロンプトによって誘導され、その解に導かれるという仮説を立てる。そこで我々は,様々な概念とそれに対応する相互作用を連続的に自己回帰的に生成する。提案手法では,茶色のティーポットに向かって走るテディベア,バイオリンを弾く犬,海で泳いでいるテディベアなど,さまざまなコンセプト(物体,行動,背景)のビデオを生成することができる。人間の評価に加えて,ビデオCLIPとDINOスコアを用いて定量的に評価を行った。この論文で提示された結果のビデオはhttps://github.com/divyakraman/MultiConceptVideo2024で見ることができる。

関連論文リスト

OmniVCus: Feedforward Subject-driven Video Customization with Multimodal Control Conditions [96.31455979495398]
本研究では、画像編集データを用いた画像-動画移動混合(IVTM)訓練を開発し、カスタマイズされたビデオにおける被写体に対するインストラクティブな編集を可能にする。また,2つの埋め込み機構を持つ拡散トランスフォーマーフレームワークであるOmniVCusを提案し,Luttery Embedding (LE) とTemporally Aligned Embedding (TAE) を提案する。本手法は定量評価と定性評価の両方において最先端の手法を大幅に超えている。
論文参考訳（メタデータ） (2025-06-29T18:43:00Z)
Mobius: Text to Seamless Looping Video Generation via Latent Shift [50.04534295458244]
ユーザアノテーションを使わずにテキスト記述から直接シームレスにループするビデオを生成する新しい方法であるMobiusを提案する。本手法では,事前学習したビデオ遅延拡散モデルを用いて,テキストプロンプトからループ映像を生成する。
論文参考訳（メタデータ） (2025-02-27T17:33:51Z)
Movie Weaver: Tuning-Free Multi-Concept Video Personalization with Anchored Prompts [49.63959518905243]
マルチコンセプト統合に基づくビデオパーソナライズのための新しい手法を提案する。 Movie Weaverは、顔、体、動物画像を含む複数のコンセプトをシームレスに1つのビデオに織り込み、1つのモデルで柔軟な組み合わせを可能にする。評価の結果,Movie Weaverはアイデンティティの保存と全体的な品質において,既存のマルチコンセプトビデオパーソナライズ手法よりも優れていた。
論文参考訳（メタデータ） (2025-02-04T22:03:26Z)
CustomTTT: Motion and Appearance Customized Video Generation via Test-Time Training [35.43906754134253]
本稿では,映像の外観や動きを簡単にジョイントできるCustomTTTを提案する。それぞれのLoRAは個別に訓練されているので、組み合わせた後にパラメータを更新するための新しいテストタイムトレーニング手法を提案する。本手法は, 定性評価と定量的評価の両面で, 最先端の作業に優れる。
論文参考訳（メタデータ） (2024-12-20T08:05:13Z)
Video Creation by Demonstration [59.389591010842636]
我々は、条件付き将来のフレーム予測によってラベルなしビデオから学習する自己教師型トレーニングアプローチである$delta$-Diffusionを提案する。映像基盤モデルと外観ボトルネック設計を併用して,実演映像から動作遅延を抽出し,生成プロセスの条件付けを行う。実証的に、$delta$-Diffusionは人間の好みと大規模マシン評価の両方の観点から、関連するベースラインを上回っている。
論文参考訳（メタデータ） (2024-12-12T18:41:20Z)
TweedieMix: Improving Multi-Concept Fusion for Diffusion-based Image/Video Generation [67.97044071594257]
TweedieMixは、カスタマイズされた拡散モデルを構成する新しい方法である。我々のフレームワークは、画像とビデオの拡散モデルに力ずくで拡張できる。
論文参考訳（メタデータ） (2024-10-08T01:06:01Z)
One-Shot Learning Meets Depth Diffusion in Multi-Object Videos [0.0]
本稿では,一対のテキスト・ビデオから一対のコヒーレント・多様な映像を生成可能な,新しい深度条件付き手法を提案する。提案手法は,従来設計した空間的・時間的注意機構を用いて,事前学習したモデルを用いて連続的な動きを捉える。推論中、ビデオ生成のための構造的ガイダンスを提供するためにDDIMインバージョンを使用する。
論文参考訳（メタデータ） (2024-08-29T16:58:10Z)
CustomVideo: Customizing Text-to-Video Generation with Multiple Subjects [61.323597069037056]
テキスト・ビデオ・ジェネレーションのパーソナライズへの現在のアプローチは、複数の課題に対処することに悩まされている。複数の被験者の指導でアイデンティティ保存ビデオを生成する新しいフレームワークであるCustomVideoを提案する。
論文参考訳（メタデータ） (2024-01-18T13:23:51Z)
Customizing Motion in Text-to-Video Diffusion Models [79.4121510826141]
動作をカスタマイズしたテキスト・ビデオ・ジェネレーション・モデルを構築するためのアプローチを提案する。入力として特定の動きを示すビデオサンプルを活用することで,入力動作パターンを多種多様なテキスト特定シナリオに対して学習し,一般化する。
論文参考訳（メタデータ） (2023-12-07T18:59:03Z)
MEVG: Multi-event Video Generation with Text-to-Video Models [18.06640097064693]
本稿では,ユーザから複数の個々の文が与えられた複数のイベントを示すビデオを生成する,拡散に基づく新しいビデオ生成手法を提案する。本手法は, 微調整処理を伴わずに, 事前学習したテキスト・ビデオ生成モデルを使用するため, 大規模なビデオデータセットを必要としない。提案手法は,コンテンツとセマンティクスの時間的コヒーレンシーの観点から,他のビデオ生成モデルよりも優れている。
論文参考訳（メタデータ） (2023-12-07T06:53:25Z)
Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。次に、新しい2段階のカスタマイズプロセスを示す。
論文参考訳（メタデータ） (2023-05-25T17:59:04Z)
Show Me What and Tell Me How: Video Synthesis via Multimodal Conditioning [36.85533835408882]
本研究は,テキストと画像を共同あるいは別々に提供するマルチモーダルビデオ生成フレームワークを提案する。本稿では,自己学習で訓練した新しいビデオトークンと,ビデオトークンをサンプリングするためのマスク予測アルゴリズムを提案する。我々のフレームワークは、セグメンテーションマスク、描画、部分閉塞画像など、様々な視覚的モダリティを組み込むことができる。
論文参考訳（メタデータ） (2022-03-04T21:09:13Z)
Deep Video Prior for Video Consistency and Propagation [58.250209011891904]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。提案手法は,大規模なデータセットではなく,オリジナルビデオとプロセッシングビデオのペアでのみ訓練される。我々は、Deep Video Priorでビデオ上で畳み込みニューラルネットワークをトレーニングすることで、時間的一貫性を実現することができることを示す。
論文参考訳（メタデータ） (2022-01-27T16:38:52Z)
Self-supervised Video Representation Learning by Pace Prediction [48.029602040786685]
本稿では,ビデオペース予測による自己指導型映像表現学習の課題に対処する。人間の視覚系がビデオのペースに敏感であるという観察に由来する。我々は、異なるペースでトレーニングクリップをランダムにサンプリングし、ニューラルネットワークに各ビデオクリップのペースを特定するよう依頼する。
論文参考訳（メタデータ） (2020-08-13T12:40:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。