Fugu-MT 論文翻訳(概要): SparseCtrl: Adding Sparse Controls to Text-to-Video Diffusion Models

論文の概要: SparseCtrl: Adding Sparse Controls to Text-to-Video Diffusion Models

arxiv url: http://arxiv.org/abs/2311.16933v1
Date: Tue, 28 Nov 2023 16:33:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-29 17:41:42.799966
Title: SparseCtrl: Adding Sparse Controls to Text-to-Video Diffusion Models
Title（参考訳）: SparseCtrl:テキスト・ビデオ拡散モデルにスパース制御を追加する
Authors: Yuwei Guo, Ceyuan Yang, Anyi Rao, Maneesh Agrawala, Dahua Lin, Bo Dai
Abstract要約: SparseCtrlは時間的にスパース信号で柔軟な構造制御を可能にする。トレーニング済みのT2Vモデルに触ることなく、これらのスパース信号を処理するための追加条件が組み込まれている。提案手法はスケッチ,深度マップ,RGB画像など,さまざまなモダリティと互換性がある。
参考スコア（独自算出の注目度）: 84.71887272654865
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The development of text-to-video (T2V), i.e., generating videos with a given text prompt, has been significantly advanced in recent years. However, relying solely on text prompts often results in ambiguous frame composition due to spatial uncertainty. The research community thus leverages the dense structure signals, e.g., per-frame depth/edge sequences, to enhance controllability, whose collection accordingly increases the burden of inference. In this work, we present SparseCtrl to enable flexible structure control with temporally sparse signals, requiring only one or a few inputs, as shown in Figure 1. It incorporates an additional condition encoder to process these sparse signals while leaving the pre-trained T2V model untouched. The proposed approach is compatible with various modalities, including sketches, depth maps, and RGB images, providing more practical control for video generation and promoting applications such as storyboarding, depth rendering, keyframe animation, and interpolation. Extensive experiments demonstrate the generalization of SparseCtrl on both original and personalized T2V generators. Codes and models will be publicly available at https://guoyww.github.io/projects/SparseCtrl .
Abstract（参考訳）: テキスト・トゥ・ビデオ(t2v, text-to-video, テキスト・プロンプトによる動画生成)の開発は近年著しく進んでいる。しかし、テキストプロンプトのみに頼ると、空間的不確実性のため曖昧なフレーム構成になることが多い。したがって、研究コミュニティは、例えばフレームごとの深さ/エッジシーケンスなどの密度の高い構造信号を活用して、制御性を高め、その収集によって推論の負担が増大する。本稿では、図1に示すように、時間的スパース信号による柔軟な構造制御を可能にするために、sparsectrlを提案する。追加の条件エンコーダを組み込んでこれらのスパース信号を処理し、事前訓練されたT2Vモデルを無タッチで残す。提案手法はスケッチや深度マップ,RGB画像など,さまざまなモダリティと互換性があり,より実用的なビデオ生成制御やストーリーボード,深度レンダリング,キーフレームアニメーション,補間といった応用の促進を実現している。大規模な実験は、オリジナルおよびパーソナライズされたT2Vジェネレータ上でのSparseCtrlの一般化を実証している。コードとモデルはhttps://guoyww.github.io/projects/SparseCtrl で公開される。

関連論文リスト

AnyI2V: Animating Any Conditional Image with Motion Control [25.49332963076066]
我々は,任意の条件付き画像をユーザ定義のモーショントラジェクトリと一致させる,トレーニング不要のフレームワークであるAnyI2Vを提案する。実験により、提案したAnyI2Vは優れた性能を示し、空間及びモーション制御ビデオ生成における新たな視点を提供する。
論文参考訳（メタデータ） (2025-07-03T17:59:02Z)
Enabling Versatile Controls for Video Diffusion Models [18.131652071161266]
VCtrlは、事前訓練されたビデオ拡散モデルのきめ細かい制御を可能にするように設計された新しいフレームワークである。総合的な実験と人的評価により、VCtrlは制御性と生成品質を効果的に向上させる。
論文参考訳（メタデータ） (2025-03-21T09:48:00Z)
BlobGEN-Vid: Compositional Text-to-Video Generation with Blob Video Representations [82.94002870060045]
既存のビデオ生成モデルは、複雑なテキストプロンプトに従い、複数のオブジェクトを合成するのに苦労する。我々は,BlobGEN-Vidというブロブグラウンドビデオ拡散モデルを開発し,ユーザがオブジェクトの動きを制御し,細かいオブジェクトの外観を制御できるようにする。 U-NetとDiTをベースとした動画拡散モデルに基づいてBlobGEN-Vidを構築する。
論文参考訳（メタデータ） (2025-01-13T19:17:06Z)
Mimir: Improving Video Diffusion Models for Precise Text Understanding [53.72393225042688]
テキストは、ナラティブな性質のため、ビデオ生成におけるキーコントロールシグナルとして機能する。近年の大規模言語モデル(LLM)の成功はデコーダのみのトランスフォーマーのパワーを示している。この作業は、慎重に調整されたトークンフィーザーを備えたエンドツーエンドのトレーニングフレームワークであるMimirによる、この課題に対処する。
論文参考訳（メタデータ） (2024-12-04T07:26:44Z)
xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。 VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。 DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文参考訳（メタデータ） (2024-08-22T17:55:22Z)
Retrieval Enhanced Zero-Shot Video Captioning [69.96136689829778]
一般的な映像理解モデルXCLIP,一般画像理解モデルCLIP,テキスト生成モデルGPT-2の3つの主要なモデルを用いて映像とテキストをブリッジする。そこで本研究では,凍結したGPT-2と凍結したXCLIPとの間の通信媒体として,学習可能なトークンを提案する。実験では、従来の最先端の手法と比較して、主要な測定基準であるCIDErが4%から20%改善されている。
論文参考訳（メタデータ） (2024-05-11T16:22:00Z)
Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文参考訳（メタデータ） (2024-03-18T17:59:58Z)
Latent-Shift: Latent Diffusion with Temporal Shift for Efficient Text-to-Video Generation [115.09597127418452]
Latent-Shiftは、事前訓練されたテキスト・ツー・イメージ生成モデルに基づく効率的なテキスト・ツー・ビデオ生成手法である。 Latent-Shiftは、より効率的でありながら、同等またはより良い結果が得られることを示す。
論文参考訳（メタデータ） (2023-04-17T17:57:06Z)
Make-A-Video: Text-to-Video Generation without Text-Video Data [69.20996352229422]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文参考訳（メタデータ） (2022-09-29T13:59:46Z)
All in One: Exploring Unified Video-Language Pre-training [44.22059872694995]
そこで本研究では,生のビデオとテキストの信号を共同表現に組み込んだ,エンドツーエンドのビデオ言語モデルであるtextitall-in-one Transformerを提案する。コードと事前訓練されたモデルはhttps://github.com/showlab/all-in-one.comでリリースされた。
論文参考訳（メタデータ） (2022-03-14T17:06:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。