Fugu-MT 論文翻訳(概要): Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation

論文の概要: Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation

arxiv url: http://arxiv.org/abs/2312.04483v1
Date: Thu, 7 Dec 2023 17:59:07 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-08 14:00:45.668509
Title: Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation
Title（参考訳）: テキスト・ビデオ生成のための階層的時空間デカップリング
Authors: Zhiwu Qing, Shiwei Zhang, Jiayu Wang, Xiang Wang, Yujie Wei, Yingya Zhang, Changxin Gao, Nong Sang
Abstract要約: テクスト・ツー・ビデオ生成(T2V)の複雑さの増大につながる空間的内容と時間的ダイナミクスを相互に結合する現在の方法ビデオの空間的要因と時間的要因を2つの視点から分離することで性能を向上する拡散モデルに基づくHiGenを提案する。
参考スコア（独自算出の注目度）: 49.298187741014345
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite diffusion models having shown powerful abilities to generate photorealistic images, generating videos that are realistic and diverse still remains in its infancy. One of the key reasons is that current methods intertwine spatial content and temporal dynamics together, leading to a notably increased complexity of text-to-video generation (T2V). In this work, we propose HiGen, a diffusion model-based method that improves performance by decoupling the spatial and temporal factors of videos from two perspectives, i.e., structure level and content level. At the structure level, we decompose the T2V task into two steps, including spatial reasoning and temporal reasoning, using a unified denoiser. Specifically, we generate spatially coherent priors using text during spatial reasoning and then generate temporally coherent motions from these priors during temporal reasoning. At the content level, we extract two subtle cues from the content of the input video that can express motion and appearance changes, respectively. These two cues then guide the model's training for generating videos, enabling flexible content variations and enhancing temporal stability. Through the decoupled paradigm, HiGen can effectively reduce the complexity of this task and generate realistic videos with semantics accuracy and motion stability. Extensive experiments demonstrate the superior performance of HiGen over the state-of-the-art T2V methods.
Abstract（参考訳）: 拡散モデルはフォトリアリスティックな画像を生成する強力な能力を示してきたが、現実的で多様なビデオを生成することは、まだ初期段階にある。重要な理由の1つは、現在の手法が空間的コンテンツと時間的ダイナミクスを連動させ、テキスト対ビデオ生成(t2v)の複雑さが著しく増加することである。本研究では,2つの視点,すなわち構造レベルとコンテンツレベルから映像の空間的・時間的要因を分離することにより,性能を向上させる拡散モデルに基づくHiGenを提案する。構造レベルでは、t2vタスクを統合デノイザーを用いて空間的推論と時間的推論の2つのステップに分解する。具体的には,空間推論中にテキストを用いて空間的コヒーレントな前兆を生成し,時間的推論中にこれらの前兆から時間的コヒーレントな動きを生成する。コンテンツレベルでは、入力ビデオの内容から2つの微妙な手がかりを抽出し、それぞれ動きと外観の変化を表現できる。これら2つのヒントは、フレキシブルなコンテンツのバリエーションを可能にし、時間的安定性を高めるために、モデルのトレーニングを導く。分離されたパラダイムによって、HiGenはこのタスクの複雑さを効果的に減らし、セマンティクスの精度と動きの安定性でリアルなビデオを生成することができる。大規模な実験は、最先端のT2V法よりも優れた性能を示す。

関連論文リスト

LoViC: Efficient Long Video Generation with Context Compression [68.22069741704158]
百万単位のオープンドメインビデオに基づいてトレーニングされたDiTベースのフレームワークであるLoViCを紹介する。当社のアプローチの核心はFlexFormerです。ビデオとテキストを統合された潜在表現に共同で圧縮する表現型オートエンコーダです。
論文参考訳（メタデータ） (2025-07-17T09:46:43Z)
Identity-Preserving Text-to-Video Generation Guided by Simple yet Effective Spatial-Temporal Decoupled Representations [66.97034863216892]
アイデンティティ保存型テキスト・ツー・ビデオ(IPT2V)生成は、一貫した人間のアイデンティティを持つ高忠実度ビデオを作成することを目的としている。現在のエンドツーエンドフレームワークは、重要な空間的・時間的トレードオフを被る。本稿では,表現をレイアウトの空間的特徴と運動力学の時間的特徴に分解する,シンプルで効果的な空間時空間分離フレームワークを提案する。
論文参考訳（メタデータ） (2025-07-07T06:54:44Z)
Extrapolating and Decoupling Image-to-Video Generation Models: Motion Modeling is Easier Than You Think [24.308538128761985]
Image-to-Video(I2V)生成は、所定の画像と条件(テキストなど)に応じてビデオクリップを合成することを目的としている。このタスクの主な課題は、画像の本来の外観を維持しながら、自然の動きを同時に生成することである。本稿では,I2V領域にモデルマージ技術を導入した新しい外挿デカップリングフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-02T16:06:16Z)
RepVideo: Rethinking Cross-Layer Representation for Video Generation [53.701548524818534]
テキスト・ビデオ拡散モデルのための拡張表現フレームワークであるRepVideoを提案する。近隣層からの機能を蓄積してリッチな表現を形成することで、このアプローチはより安定したセマンティック情報をキャプチャする。我々の実験は、RepVideoが正確な空間的外観を生成する能力を著しく向上するだけでなく、ビデオ生成における時間的一貫性も向上することを示した。
論文参考訳（メタデータ） (2025-01-15T18:20:37Z)
BroadWay: Boost Your Text-to-Video Generation Model in a Training-free Way [72.1984861448374]
そこで,BroadWayを提案する。BroadWayは,追加パラメータやメモリ増設,サンプリング時間を追加することなく,テキスト・ビデオ・ジェネレーションの品質を向上するためのトレーニング不要な手法である。具体的には、BroadWayは2つの主要コンポーネントから構成される: 1) 時間的自己誘導は、様々なデコーダブロック間の時間的注意マップ間の格差を減らし、生成されたビデオの構造的妥当性と時間的一貫性を改善する。
論文参考訳（メタデータ） (2024-10-08T17:56:33Z)
Enhancing Video-Language Representations with Structural Spatio-Temporal Alignment [130.15775113897553]
フィンスタは微細な構造的時間的アライメント学習法である。既存の13の強化されたビデオ言語モデルも一貫して改善されている。
論文参考訳（メタデータ） (2024-06-27T15:23:36Z)
VideoTetris: Towards Compositional Text-to-Video Generation [45.395598467837374]
VideoTetrisは、合成T2V生成を可能にするフレームワークである。我々は, VideoTetrisがT2V生成において, 印象的な質的, 定量的な結果をもたらすことを示す。
論文参考訳（メタデータ） (2024-06-06T17:25:33Z)
S2DM: Sector-Shaped Diffusion Models for Video Generation [2.0270353391739637]
ビデオ生成のためのセクタ型拡散モデル(S2DM)を提案する。 S2DMは、同じ意味と本質的な特徴を共有する本質的な関連データ群を生成することができる。追加のトレーニングなしに、我々のモデルは、他の時間的条件と統合され、生成モデルは、既存の作業と同等のパフォーマンスを達成できることを示す。
論文参考訳（メタデータ） (2024-03-20T08:50:15Z)
Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文参考訳（メタデータ） (2023-12-11T18:54:52Z)
Decouple Content and Motion for Conditional Image-to-Video Generation [6.634105805557556]
条件付きイメージ・トゥ・ビデオ(cI2V)生成は、条件、すなわち1つの画像とテキストから始まり、信じられる新しいビデオを作成することである。従来のcI2V生成法は、従来のRGBピクセル空間において、動きの一貫性と視覚的連続性のモデリングに制限がある。本稿では,対象のRGB画素を空間的内容と時間的動きの2つの異なる成分に分解する手法を提案する。
論文参考訳（メタデータ） (2023-11-24T06:08:27Z)
Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation [55.36617538438858]
本研究では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。我々はHD-VG-130Mという大規模かつオープンソースのビデオデータセットをキュレートする。
論文参考訳（メタデータ） (2023-05-18T11:06:15Z)
Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。 S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文参考訳（メタデータ） (2023-03-28T22:45:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。