論文の概要: FlexTraj: Image-to-Video Generation with Flexible Point Trajectory Control
- arxiv url: http://arxiv.org/abs/2510.08527v1
- Date: Thu, 09 Oct 2025 17:50:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.275512
- Title: FlexTraj: Image-to-Video Generation with Flexible Point Trajectory Control
- Title(参考訳): FlexTraj: フレキシブルポイント軌道制御による画像から映像生成
- Authors: Zhiyuan Zhang, Can Wang, Dongdong Chen, Jing Liao,
- Abstract要約: フレキシブル・ポイント・トラジェクトリ・コントロールを備えた画像・ビデオ生成フレームワークFlexTrajを提案する。
本稿では,各点をセグメント化ID,時間的に一貫した軌跡ID,外見的手がかりのためのオプションカラーチャネルで符号化する統合された点ベース動作表現を提案する。
- 参考スコア(独自算出の注目度): 23.498756326123996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present FlexTraj, a framework for image-to-video generation with flexible point trajectory control. FlexTraj introduces a unified point-based motion representation that encodes each point with a segmentation ID, a temporally consistent trajectory ID, and an optional color channel for appearance cues, enabling both dense and sparse trajectory control. Instead of injecting trajectory conditions into the video generator through token concatenation or ControlNet, FlexTraj employs an efficient sequence-concatenation scheme that achieves faster convergence, stronger controllability, and more efficient inference, while maintaining robustness under unaligned conditions. To train such a unified point trajectory-controlled video generator, FlexTraj adopts an annealing training strategy that gradually reduces reliance on complete supervision and aligned condition. Experimental results demonstrate that FlexTraj enables multi-granularity, alignment-agnostic trajectory control for video generation, supporting various applications such as motion cloning, drag-based image-to-video, motion interpolation, camera redirection, flexible action control and mesh animations.
- Abstract(参考訳): フレキシブル・ポイント・トラジェクトリ・コントロールを備えた画像・ビデオ生成フレームワークFlexTrajを提案する。
FlexTrajは、各点をセグメンテーションID、時間的に一貫したトラジェクトリID、外見のキューのためのオプションカラーチャネルでエンコードする統合されたポイントベースのモーション表現を導入し、密集したトラジェクトリ制御とスパースなトラジェクトリ制御を可能にする。
FlexTrajは、トークン結合やコントロールネットを通じてビデオジェネレータに軌道条件を注入する代わりに、高速な収束、より強力な制御性、より効率的な推論を実現し、不整合条件下で堅牢性を維持しながら、効率的なシーケンス結合方式を採用している。
このような統合されたポイントトラジェクトリ制御ビデオジェネレータをトレーニングするために、FlexTrajは、完全な監督と調整条件への依存を徐々に軽減するアニーリングトレーニング戦略を採用する。
実験の結果,FlexTrajは動画生成のための多粒度・アライメントに依存しない軌道制御が可能であり,モーションクローニング,ドラッグベースイメージ・ツー・ビデオ,モーション補間,カメラリダイレクト,フレキシブルアクション制御,メッシュアニメーションなどの様々な応用をサポートすることがわかった。
関連論文リスト
- ATI: Any Trajectory Instruction for Controllable Video Generation [25.249489701215467]
本稿では、カメラの動き、オブジェクトレベルの翻訳、きめ細かい局所的な動きをシームレスに統合する、動画生成におけるモーション制御のための統一的なフレームワークを提案する。
提案手法は,事前学習した画像-映像生成モデルの潜在空間にユーザ定義トラジェクトリを投影することにより,凝集性のある解を提供する。
論文 参考訳(メタデータ) (2025-05-28T23:49:18Z) - FlexiAct: Towards Flexible Action Control in Heterogeneous Scenarios [49.09128364751743]
アクションカスタマイズでは、被験者が入力制御信号によって指示されたアクションを実行するビデオを生成する。
現在の手法では、ポーズ誘導やグローバルな動きのカスタマイズが使われているが、空間構造に対する厳密な制約によって制限されている。
本稿では、参照ビデオから任意のターゲット画像へアクションを転送するFlexiActを提案する。
論文 参考訳(メタデータ) (2025-05-06T17:58:02Z) - VidCRAFT3: Camera, Object, and Lighting Control for Image-to-Video Generation [40.16313215714222]
制御可能なイメージ・ツー・ビデオ(I2V)生成は、参照画像をユーザ指定の制御信号でガイドされたコヒーレントなビデオに変換する。
我々は、カメラモーション、オブジェクトモーション、照明方向の独立制御とジョイント制御をサポートする統合I2VフレームワークであるVidCRAFT3を提案する。
論文 参考訳(メタデータ) (2025-02-11T13:11:59Z) - TrackGo: A Flexible and Efficient Method for Controllable Video Generation [33.62804888664707]
条件付きビデオ生成に自由形マスクと矢印を利用する新しい手法であるTrackGoを紹介する。
また、時間的自己注意層にシームレスに統合されるように設計された効率的で軽量なアダプタである、制御実装のためのTrackAdapterを提案する。
実験の結果,新しい手法はTrackAdapterによって強化され,FVD,FID,MCスコアなどの重要な指標における最先端のパフォーマンスが得られた。
論文 参考訳(メタデータ) (2024-08-21T09:42:04Z) - MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model [78.11258752076046]
MOFA-Videoは、様々な制御可能な信号を用いて、所定の画像から映像を生成する高度な制御可能な画像アニメーション手法である。
ビデオ生成パイプラインの動作を制御するために,複数のドメイン対応モーションフィールドアダプタを設計する。
トレーニングの後、異なるドメインのMOFA-Adaptersは、より制御可能なビデオ生成のために協力することもできる。
論文 参考訳(メタデータ) (2024-05-30T16:22:22Z) - TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - DragNUWA: Fine-grained Control in Video Generation by Integrating Text,
Image, and Trajectory [126.4597063554213]
DragNUWAは、オープンドメイン拡散に基づくビデオ生成モデルである。
意味的、空間的、時間的視点からビデオ内容のきめ細かい制御を提供する。
本実験はDragNUWAの有効性を検証し,ビデオ生成における微粒化制御における優れた性能を示した。
論文 参考訳(メタデータ) (2023-08-16T01:43:41Z) - Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。
本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。
我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。