論文の概要: Through-The-Mask: Mask-based Motion Trajectories for Image-to-Video Generation
- arxiv url: http://arxiv.org/abs/2501.03059v1
- Date: Mon, 06 Jan 2025 14:49:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:09:52.229849
- Title: Through-The-Mask: Mask-based Motion Trajectories for Image-to-Video Generation
- Title(参考訳): マスクをベースとしたイメージ・ツー・ビデオ生成用モーショントラジェクトリ
- Authors: Guy Yariv, Yuval Kirstain, Amit Zohar, Shelly Sheynin, Yaniv Taigman, Yossi Adi, Sagie Benaim, Adam Polyak,
- Abstract要約: 我々は、静的な画像をテキスト記述に基づいてリアルな映像シーケンスに変換するI2V(Image-to-Video)生成の課題について検討する。
I2V生成を分解する2段階の合成フレームワークを提案する。 (i) 明示的な中間表現生成段階, (ii) この表現に条件付けされたビデオ生成段階。
提案手法は,マルチオブジェクトおよびハイモーションシナリオを用いた挑戦的ベンチマークにおいて評価し,提案手法が最先端の整合性を実現することを実証的に示す。
- 参考スコア(独自算出の注目度): 52.337472185022136
- License:
- Abstract: We consider the task of Image-to-Video (I2V) generation, which involves transforming static images into realistic video sequences based on a textual description. While recent advancements produce photorealistic outputs, they frequently struggle to create videos with accurate and consistent object motion, especially in multi-object scenarios. To address these limitations, we propose a two-stage compositional framework that decomposes I2V generation into: (i) An explicit intermediate representation generation stage, followed by (ii) A video generation stage that is conditioned on this representation. Our key innovation is the introduction of a mask-based motion trajectory as an intermediate representation, that captures both semantic object information and motion, enabling an expressive but compact representation of motion and semantics. To incorporate the learned representation in the second stage, we utilize object-level attention objectives. Specifically, we consider a spatial, per-object, masked-cross attention objective, integrating object-specific prompts into corresponding latent space regions and a masked spatio-temporal self-attention objective, ensuring frame-to-frame consistency for each object. We evaluate our method on challenging benchmarks with multi-object and high-motion scenarios and empirically demonstrate that the proposed method achieves state-of-the-art results in temporal coherence, motion realism, and text-prompt faithfulness. Additionally, we introduce \benchmark, a new challenging benchmark for single-object and multi-object I2V generation, and demonstrate our method's superiority on this benchmark. Project page is available at https://guyyariv.github.io/TTM/.
- Abstract(参考訳): 我々は、静的な画像をテキスト記述に基づいてリアルな映像シーケンスに変換するI2V(Image-to-Video)生成の課題について検討する。
最近の進歩はフォトリアリスティックな出力を生み出すが、特に多目的シナリオにおいて、正確で一貫したオブジェクトの動きを持つビデオを作成するのにしばしば苦労する。
これらの制限に対処するため、I2V生成を次のように分解する2段階構成フレームワークを提案する。
一 明示的中間表現生成段階
(ii)この表現を条件とした映像生成段階。
我々の重要な革新は、中間表現としてのマスクベースの動き軌跡の導入であり、これは意味オブジェクト情報と動きの両方をキャプチャし、動きと意味の表現を表現的かつコンパクトにすることができる。
学習した表現を第2段階に組み込むためには,対象レベルの注意目的を利用する。
具体的には,空間的,物体ごとのマスク・クロス・アテンションの対象として,オブジェクト固有のプロンプトを対応する潜在空間領域とマスク付き時空間自己アテンション対象に統合し,各オブジェクトに対するフレーム・ツー・フレームの整合性を確保する。
提案手法は, 時間的コヒーレンス, 動きリアリズム, テキストプロンプト忠実度において, 最新の結果が得られることを実証的に実証した。
さらに,単目的および多目的I2V生成のための新しい挑戦的ベンチマークである \benchmark を導入し,本ベンチマークにおける本手法の優位性を示す。
プロジェクトページはhttps://guyyariv.github.io/TTM/.comで公開されている。
関連論文リスト
- Instance-Level Moving Object Segmentation from a Single Image with Events [84.12761042512452]
移動対象セグメンテーションは、複数の移動対象を含む動的なシーンを理解する上で重要な役割を果たす。
従来の手法では、物体の画素変位がカメラの動きや物体の動きによって引き起こされるかどうかを区別することが困難であった。
近年の進歩は、従来の画像の不適切な動作モデリング機能に対抗するために、新しいイベントカメラの動作感度を利用する。
補完的なテクスチャとモーションキューを統合した,最初のインスタンスレベルの移動オブジェクトセグメンテーションフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-18T15:56:46Z) - TIV-Diffusion: Towards Object-Centric Movement for Text-driven Image to Video Generation [31.43081425504501]
テキスト駆動映像生成(TI2V)は、第1フレームと対応するテキスト記述が与えられた制御可能なビデオを生成することを目的としている。
本稿では,オブジェクト中心のテキスト・ビジュアルアライメントを通じて,TIV-Diffusionと呼ばれる新しい拡散型TI2Vフレームワークを提案する。
我々のTIV-Diffusionは、既存のTI2V法と比較して最先端の高品質ビデオ生成を実現する。
論文 参考訳(メタデータ) (2024-12-13T16:52:13Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Rethinking Amodal Video Segmentation from Learning Supervised Signals
with Object-centric Representation [47.39455910191075]
ビデオ・アモーダル・セグメンテーションはコンピュータビジョンにおいて難しい課題である。
近年の研究では、モーションフローを用いて、自己監督された環境下でのフレーム間の情報統合によって、有望な性能を実現している。
本稿では,従来の研究を再考し,特にオブジェクト中心表現を用いた教師付き信号の活用について述べる。
論文 参考訳(メタデータ) (2023-09-23T04:12:02Z) - Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。
我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。
本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-05-06T09:07:01Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。