論文の概要: FlexAM: Flexible Appearance-Motion Decomposition for Versatile Video Generation Control
- arxiv url: http://arxiv.org/abs/2602.13185v1
- Date: Fri, 13 Feb 2026 18:52:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:54.084974
- Title: FlexAM: Flexible Appearance-Motion Decomposition for Versatile Video Generation Control
- Title(参考訳): FlexAM: 可変ビデオ生成制御のためのフレキシブルな外観運動分解
- Authors: Mingzhi Sheng, Zekai Gu, Peng Li, Cheng Lin, Hao-Xiang Guo, Ying-Cong Chen, Yuan Liu,
- Abstract要約: 我々は、「外観」と「動き」の根本的な切り離しが、より堅牢でスケーラブルな経路を提供すると論じている。
我々は,新しい3D制御信号に基づいて構築された統合フレームワークFlexAMを提案する。
- 参考スコア(独自算出の注目度): 38.10894749908116
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Effective and generalizable control in video generation remains a significant challenge. While many methods rely on ambiguous or task-specific signals, we argue that a fundamental disentanglement of "appearance" and "motion" provides a more robust and scalable pathway. We propose FlexAM, a unified framework built upon a novel 3D control signal. This signal represents video dynamics as a point cloud, introducing three key enhancements: multi-frequency positional encoding to distinguish fine-grained motion, depth-aware positional encoding, and a flexible control signal for balancing precision and generative quality. This representation allows FlexAM to effectively disentangle appearance and motion, enabling a wide range of tasks including I2V/V2V editing, camera control, and spatial object editing. Extensive experiments demonstrate that FlexAM achieves superior performance across all evaluated tasks.
- Abstract(参考訳): ビデオ生成における効果的で一般化可能な制御は、依然として大きな課題である。
多くの手法はあいまいな信号やタスク固有の信号に依存しているが、我々は「外観」と「動き」の根本的な切り離しが、より堅牢でスケーラブルな経路をもたらすと論じている。
我々は,新しい3D制御信号に基づいて構築された統合フレームワークFlexAMを提案する。
微細な動きを識別するための多周波位置符号化、深度認識位置符号化、精度と生成品質のバランスをとる柔軟な制御信号である。
この表現により、FlexAMは外観と動きを効果的に切り離し、I2V/V2V編集、カメラ制御、空間オブジェクト編集を含む幅広いタスクを可能にする。
大規模な実験は、FlexAMがすべての評価されたタスクで優れたパフォーマンスを達成することを示した。
関連論文リスト
- CtrlVDiff: Controllable Video Generation via Unified Multimodal Video Diffusion [62.04833878126661]
統合拡散フレームワークにおける映像理解と制御可能な映像生成という2つの課題に対処する。
CtrlVDiffは、Hybrid Modality Control Strategy(HMCS)で訓練された統合拡散モデルであり、深度、正規度、セグメンテーション、エッジ、グラフィックベースの内在性(アルベド、粗さ、金属)から特徴を導出し、融合する。
理解と生成のベンチマーク全体にわたって、CtrlVDiffは優れた制御性と忠実さを提供し、レイヤワイズな編集(リライティング、材料調整、オブジェクト挿入)と最先端のベースラインを越えながら、いくつかのモダリティが利用できない場合の堅牢性を維持している。
論文 参考訳(メタデータ) (2025-11-26T07:27:11Z) - OmniMotion-X: Versatile Multimodal Whole-Body Motion Generation [52.579531290307926]
本稿では,全身動作生成のための汎用フレームワークであるOmniMotion-Xを紹介する。
OmniMotion-Xは、テキスト・トゥ・モーション、音楽・トゥ・ダンス、音声・トゥ・ジェスチャなど、多様なマルチモーダルタスクを効率的にサポートする。
高品質なマルチモーダルトレーニングを実現するため,これまでで最大の統合マルチモーダルモーションデータセットであるOmniMoCap-Xを構築した。
論文 参考訳(メタデータ) (2025-10-22T17:25:33Z) - FlexTraj: Image-to-Video Generation with Flexible Point Trajectory Control [23.498756326123996]
フレキシブル・ポイント・トラジェクトリ・コントロールを備えた画像・ビデオ生成フレームワークFlexTrajを提案する。
本稿では,各点をセグメント化ID,時間的に一貫した軌跡ID,外見的手がかりのためのオプションカラーチャネルで符号化する統合された点ベース動作表現を提案する。
論文 参考訳(メタデータ) (2025-10-09T17:50:22Z) - FlexiAct: Towards Flexible Action Control in Heterogeneous Scenarios [49.09128364751743]
アクションカスタマイズでは、被験者が入力制御信号によって指示されたアクションを実行するビデオを生成する。
現在の手法では、ポーズ誘導やグローバルな動きのカスタマイズが使われているが、空間構造に対する厳密な制約によって制限されている。
本稿では、参照ビデオから任意のターゲット画像へアクションを転送するFlexiActを提案する。
論文 参考訳(メタデータ) (2025-05-06T17:58:02Z) - OmniVDiff: Omni Controllable Video Diffusion for Generation and Understanding [48.39161756773205]
単一拡散モデルを用いて複数の映像コンテンツを合成し,理解することを目的とした,制御可能なビデオ拡散のための新しいフレームワークOmniVDiffを提案する。
我々のモデルは,テキスト条件付きビデオ生成,ビデオ理解,X条件付きビデオ生成という3つの重要な機能をサポートしている。
これらの多様なタスクを統合ビデオ拡散フレームワークに統合することにより、OmniVDiffは制御可能なビデオ拡散の柔軟性とスケーラビリティを向上させる。
論文 参考訳(メタデータ) (2025-04-15T03:05:46Z) - VidCRAFT3: Camera, Object, and Lighting Control for Image-to-Video Generation [40.16313215714222]
制御可能なイメージ・ツー・ビデオ(I2V)生成は、参照画像をユーザ指定の制御信号でガイドされたコヒーレントなビデオに変換する。
我々は、カメラモーション、オブジェクトモーション、照明方向の独立制御とジョイント制御をサポートする統合I2VフレームワークであるVidCRAFT3を提案する。
論文 参考訳(メタデータ) (2025-02-11T13:11:59Z) - I2VControl: Disentangled and Unified Video Motion Synthesis Control [11.83645633418189]
論理的矛盾を克服するために,不整合で統一されたフレームワーク,すなわちI2VControlを提案する。
私たちは、カメラコントロール、オブジェクトドラッグ、モーションブラシを再考し、すべてのタスクを一貫した表現に再構成します。
我々は広範囲な実験を行い、様々な制御タスクにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-11-26T04:21:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。