論文の概要: TrackGo: A Flexible and Efficient Method for Controllable Video Generation
- arxiv url: http://arxiv.org/abs/2408.11475v1
- Date: Wed, 21 Aug 2024 09:42:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 17:39:23.943096
- Title: TrackGo: A Flexible and Efficient Method for Controllable Video Generation
- Title(参考訳): TrackGo: フレキシブルで効率的なビデオ生成方法
- Authors: Haitao Zhou, Chuang Wang, Rui Nie, Jinxiao Lin, Dongdong Yu, Qian Yu, Changhu Wang,
- Abstract要約: 条件付きビデオ生成のための新しいアプローチであるTrackGoを紹介する。
TrackGoは、ビデオコンテンツを操作するための柔軟で正確なメカニズムを提供する。
また,制御実装のためのTrackAdapterを提案する。
- 参考スコア(独自算出の注目度): 32.906496577618924
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent years have seen substantial progress in diffusion-based controllable video generation. However, achieving precise control in complex scenarios, including fine-grained object parts, sophisticated motion trajectories, and coherent background movement, remains a challenge. In this paper, we introduce TrackGo, a novel approach that leverages free-form masks and arrows for conditional video generation. This method offers users with a flexible and precise mechanism for manipulating video content. We also propose the TrackAdapter for control implementation, an efficient and lightweight adapter designed to be seamlessly integrated into the temporal self-attention layers of a pretrained video generation model. This design leverages our observation that the attention map of these layers can accurately activate regions corresponding to motion in videos. Our experimental results demonstrate that our new approach, enhanced by the TrackAdapter, achieves state-of-the-art performance on key metrics such as FVD, FID, and ObjMC scores. The project page of TrackGo can be found at: https://zhtjtcz.github.io/TrackGo-Page/
- Abstract(参考訳): 近年、拡散に基づく制御可能なビデオ生成が著しく進歩している。
しかし、細粒度、洗練された運動軌跡、コヒーレントな背景運動を含む複雑なシナリオにおいて正確な制御を達成することは依然として困難である。
本稿では,条件付きビデオ生成に自由形マスクと矢印を利用する新しい手法であるTrackGoを紹介する。
この方法は、ビデオコンテンツを操作するための柔軟で正確なメカニズムをユーザに提供する。
また、予め訓練されたビデオ生成モデルの時間的自己アテンション層にシームレスに統合されるように設計された、効率的で軽量なアダプタである、制御実装のためのTrackAdapterを提案する。
この設計は、ビデオ中の動きに対応する領域を正確に活性化する、これらのレイヤのアテンションマップを活用する。
実験の結果,TrackAdapterによって強化された我々の新しい手法は,FVD,FID,ObjMCスコアなどの重要な指標に対して,最先端のパフォーマンスを実現することがわかった。
TrackGoのプロジェクトページは、https://zhtjtcz.github.io/TrackGo-Page/.com/で見ることができる。
関連論文リスト
- MotionBooth: Motion-Aware Customized Text-to-Video Generation [44.41894050494623]
MotionBoothは、オブジェクトとカメラの両方の動きを正確に制御して、カスタマイズされた被験者をアニメーションするためのフレームワークである。
オブジェクトの形状や属性を正確に把握するために,テキスト・ビデオ・モデルを効率的に微調整する。
提案手法は,被験者の学習能力を高めるために,被写体領域の損失とビデオ保存損失を示す。
論文 参考訳(メタデータ) (2024-06-25T17:42:25Z) - Image Conductor: Precision Control for Interactive Video Synthesis [90.2353794019393]
映画製作とアニメーション制作は、しばしばカメラの遷移と物体の動きを調整するための洗練された技術を必要とする。
イメージコンダクタ(Image Conductor)は、カメラトランジションとオブジェクトの動きを正確に制御し、単一の画像からビデオアセットを生成する方法である。
論文 参考訳(メタデータ) (2024-06-21T17:55:05Z) - MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model [78.11258752076046]
MOFA-Videoは、様々な制御可能な信号を用いて、所定の画像から映像を生成する高度な制御可能な画像アニメーション手法である。
ビデオ生成パイプラインの動作を制御するために,複数のドメイン対応モーションフィールドアダプタを設計する。
トレーニングの後、異なるドメインのMOFA-Adaptersは、より制御可能なビデオ生成のために協力することもできる。
論文 参考訳(メタデータ) (2024-05-30T16:22:22Z) - TrailBlazer: Trajectory Control for Diffusion-Based Video Generation [11.655256653219604]
テキスト・ツー・ビデオ(T2V)生成における制御性はしばしば課題である。
我々はキーフレーミングの概念を導入し、対象の軌跡と全体の外観を移動境界ボックスと対応するプロンプトの両方でガイドできるようにする。
箱の大きさが大きくなるにつれて、視界や仮想カメラへの移動といった新たな効果が生まれます。
論文 参考訳(メタデータ) (2023-12-31T10:51:52Z) - TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - Propagate And Calibrate: Real-time Passive Non-line-of-sight Tracking [84.38335117043907]
本研究では,リレー壁のみを観察することで,見えない部屋を歩いている人を追跡する純粋受動的手法を提案する。
本研究では,リレー壁の映像の非知覚的変化を発掘するため,時間的局所的な動きの伝達に欠かせない特徴として差分フレームを導入する。
提案手法を評価するため,最初の動的受動NLOS追跡データセットであるNLOS-Trackを構築し,公開する。
論文 参考訳(メタデータ) (2023-03-21T12:18:57Z) - Video Relation Detection via Tracklet based Visual Transformer [12.31184296559801]
近年,ビデオ視覚関係検出 (VidVRD) がコミュニティに注目されている。
我々は,最先端のビデオオブジェクトのトラックレット検出パイプラインMEGAとDeepSORTを適用して,トラックレットの提案を生成する。
そして、プリカット操作をせずに、トラックレットベースでVidVRDを実行する。
論文 参考訳(メタデータ) (2021-08-19T13:13:23Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T05:44:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。