論文の概要: LayerT2V: Interactive Multi-Object Trajectory Layering for Video Generation
- arxiv url: http://arxiv.org/abs/2508.04228v1
- Date: Wed, 06 Aug 2025 09:03:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.644889
- Title: LayerT2V: Interactive Multi-Object Trajectory Layering for Video Generation
- Title(参考訳): LayerT2V:ビデオ生成のための対話型多目的軌道層
- Authors: Kangrui Cen, Baixuan Zhao, Yi Xin, Siqi Luo, Guangtao Zhai, Xiaohong Liu,
- Abstract要約: テキスト・トゥ・ビデオ(T2V)生成における物体の運動軌跡の制御は困難であり、比較的探索されていない領域である。
本稿では、背景と前景のオブジェクト層を層別に合成することで、ビデオを生成するための第1のアプローチであるLayerT2Vを紹介する。
実験では、複雑なマルチオブジェクトシナリオを生成する上でLayerT2Vが優れていることを示し、mIoUとAP50のメトリクスがSOTA(State-of-the-art)メソッドよりも1.4倍、4.5倍改善されていることを示している。
- 参考スコア(独自算出の注目度): 33.26383352897258
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Controlling object motion trajectories in Text-to-Video (T2V) generation is a challenging and relatively under-explored area, particularly in scenarios involving multiple moving objects. Most community models and datasets in the T2V domain are designed for single-object motion, limiting the performance of current generative models in multi-object tasks. Additionally, existing motion control methods in T2V either lack support for multi-object motion scenes or experience severe performance degradation when object trajectories intersect, primarily due to the semantic conflicts in colliding regions. To address these limitations, we introduce LayerT2V, the first approach for generating video by compositing background and foreground objects layer by layer. This layered generation enables flexible integration of multiple independent elements within a video, positioning each element on a distinct "layer" and thus facilitating coherent multi-object synthesis while enhancing control over the generation process. Extensive experiments demonstrate the superiority of LayerT2V in generating complex multi-object scenarios, showcasing 1.4x and 4.5x improvements in mIoU and AP50 metrics over state-of-the-art (SOTA) methods. Project page and code are available at https://kr-panghu.github.io/LayerT2V/ .
- Abstract(参考訳): テキスト・トゥ・ビデオ(T2V)生成におけるオブジェクトの運動軌跡の制御は、特に複数の移動物体を含むシナリオにおいて、困難で比較的未探索な領域である。
T2V領域のほとんどのコミュニティモデルとデータセットは、単一のオブジェクトの動きのために設計されており、マルチオブジェクトタスクにおける現在の生成モデルの性能を制限している。
さらに、T2Vの既存のモーションコントロール手法は、多目的モーションシーンのサポートを欠いているか、オブジェクトの軌跡が交差するときに、主に衝突領域における意味的衝突のために深刻なパフォーマンス劣化を経験している。
これらの制限に対処するために,背景および前景オブジェクトを層別に合成してビデオを生成するための第1のアプローチであるLayerT2Vを導入する。
この階層化生成は、ビデオ内の複数の独立した要素の柔軟な統合を可能にし、各要素を異なる「層」上に配置し、生成プロセスの制御を強化しながらコヒーレントな多目的合成を容易にする。
大規模な実験では、複雑な多目的シナリオを生成する上でLayerT2Vが優れていることが示され、mIoUとAP50のメトリクスがSOTA(State-of-the-art)メソッドよりも1.4倍、4.5倍改善されていることが示されている。
プロジェクトページとコードはhttps://kr-panghu.github.io/LayerT2V/ で公開されている。
関連論文リスト
- MOVi: Training-free Text-conditioned Multi-Object Video Generation [43.612899589093075]
拡散モデルと大言語モデル(LLM)のオープンワールド知識を活用するマルチオブジェクトビデオ生成のためのトレーニング不要なアプローチを提案する。
LLMをオブジェクト軌跡のディレクタ'として使用し、ノイズ再初期化によるトラジェクトリを適用して現実的な動きを正確に制御する。
既存のビデオ拡散モデルのマルチオブジェクト生成能力を著しく向上する学習自由アプローチの有効性を実験により検証した。
論文 参考訳(メタデータ) (2025-05-29T01:41:10Z) - Segment Any Motion in Videos [80.72424676419755]
本研究では,長距離軌道運動キューとDINOに基づく意味的特徴を組み合わせた移動物体セグメンテーションを提案する。
本モデルでは,動作を優先し,セマンティックサポートを統合しつつ,時空間軌道注意と動き・セマンティック・デカップリング・エンベディングを用いた。
論文 参考訳(メタデータ) (2025-03-28T09:34:11Z) - Extrapolating and Decoupling Image-to-Video Generation Models: Motion Modeling is Easier Than You Think [24.308538128761985]
Image-to-Video(I2V)生成は、所定の画像と条件(テキストなど)に応じてビデオクリップを合成することを目的としている。
このタスクの主な課題は、画像の本来の外観を維持しながら、自然の動きを同時に生成することである。
本稿では,I2V領域にモデルマージ技術を導入した新しい外挿デカップリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-02T16:06:16Z) - Through-The-Mask: Mask-based Motion Trajectories for Image-to-Video Generation [52.337472185022136]
我々は、静的な画像をテキスト記述に基づいてリアルな映像シーケンスに変換するI2V(Image-to-Video)生成の課題について検討する。
I2V生成を分解する2段階の合成フレームワークを提案する。 (i) 明示的な中間表現生成段階, (ii) この表現に条件付けされたビデオ生成段階。
提案手法は,マルチオブジェクトおよびハイモーションシナリオを用いた挑戦的ベンチマークにおいて評価し,提案手法が最先端の整合性を実現することを実証的に示す。
論文 参考訳(メタデータ) (2025-01-06T14:49:26Z) - InTraGen: Trajectory-controlled Video Generation for Object Interactions [100.79494904451246]
InTraGenは、オブジェクトインタラクションシナリオのトラジェクトリベースの生成を改善するパイプラインである。
その結果,視覚的忠実度と定量的性能の両面での改善が示された。
論文 参考訳(メタデータ) (2024-11-25T14:27:50Z) - Vivid-ZOO: Multi-View Video Generation with Diffusion Model [76.96449336578286]
新しい課題は、大量のキャプション付きマルチビュービデオの欠如と、そのような多次元分布をモデル化する複雑さにある。
本稿では,テキストから動的3Dオブジェクトを中心に,高品質なマルチビュービデオを生成する拡散型パイプラインを提案する。
論文 参考訳(メタデータ) (2024-06-12T21:44:04Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。