論文の概要: SMRABooth: Subject and Motion Representation Alignment for Customized Video Generation
- arxiv url: http://arxiv.org/abs/2512.12193v1
- Date: Sat, 13 Dec 2025 05:44:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.15268
- Title: SMRABooth: Subject and Motion Representation Alignment for Customized Video Generation
- Title(参考訳): SMRABooth:カスタマイズビデオ生成のための主観的・運動的表現アライメント
- Authors: Xuancheng Xu, Yaning Li, Sisi You, Bing-Kun Bao,
- Abstract要約: ビデオ生成は、被験者の外観を基準画像から忠実に保存するビデオを作成することを目的としている。
既存の手法は、主観的外観の類似性と動きパターンの整合性の両方を保証するのに苦労する。
本稿では,自己教師付きエンコーダと光フローエンコーダを併用したSMRABoothを提案する。
- 参考スコア(独自算出の注目度): 20.745928437290292
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Customized video generation aims to produce videos that faithfully preserve the subject's appearance from reference images while maintaining temporally consistent motion from reference videos. Existing methods struggle to ensure both subject appearance similarity and motion pattern consistency due to the lack of object-level guidance for subject and motion. To address this, we propose SMRABooth, which leverages the self-supervised encoder and optical flow encoder to provide object-level subject and motion representations. These representations are aligned with the model during the LoRA fine-tuning process. Our approach is structured in three core stages: (1) We exploit subject representations via a self-supervised encoder to guide subject alignment, enabling the model to capture overall structure of subject and enhance high-level semantic consistency. (2) We utilize motion representations from an optical flow encoder to capture structurally coherent and object-level motion trajectories independent of appearance. (3) We propose a subject-motion association decoupling strategy that applies sparse LoRAs injection across both locations and timing, effectively reducing interference between subject and motion LoRAs. Extensive experiments show that SMRABooth excels in subject and motion customization, maintaining consistent subject appearance and motion patterns, proving its effectiveness in controllable text-to-video generation.
- Abstract(参考訳): カスタマイズされたビデオ生成は、参照ビデオからの時間的に一貫した動きを維持しながら、参照画像から被験者の外観を忠実に保存するビデオを作成することを目的としている。
既存の手法では、被写体と運動に対する対象レベルのガイダンスが欠如しているため、被写体との類似性と動作パターンの整合性を両立させることが困難である。
そこで本研究では,自己監督型エンコーダと光フローエンコーダを併用したSMRABoothを提案する。
これらの表現は、LoRAファインチューニングプロセス中にモデルと一致します。
提案手法は,(1)自己教師型エンコーダによる主観表現を利用して主観的アライメントを誘導し,主観的アライメントの全体構造を把握し,高レベルの意味的一貫性を高める。
2) 光学式フローエンコーダからの動作表現を用いて, 外観に依存しない構造的コヒーレントかつオブジェクトレベルの運動軌跡を捕捉する。
3) 位置とタイミングの双方に疎らなLORAを注入し, 被験者と移動LORAの干渉を効果的に軽減する主観運動関連疎結合戦略を提案する。
広範囲にわたる実験により,SMRABoothは被写体と運動のカスタマイズに優れ,一貫した被写体外観と動きパターンを維持し,制御可能なテキスト・ビデオ生成におけるその効果を証明した。
関連論文リスト
- Saliency-Motion Guided Trunk-Collateral Network for Unsupervised Video Object Segmentation [8.912201177914858]
Saliency-Motion Guided Trunk-Collateral Network (SMTC-Net)
動き適応型ビデオオブジェクトセグメンテーション(UVOS)のための新しいTrunk-Collateral構造を提案する。
SMTC-Netは3つのUVOSデータセットで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2025-04-08T11:02:14Z) - JointTuner: Appearance-Motion Adaptive Joint Training for Customized Video Generation [13.168628936598367]
JointTunerは、外観とモーションコンポーネントのジョイント最適化を可能にするフレームワークである。
AiT Lossは外見に関連するコンポーネントの流れを乱し、モデルがモーション学習のみに集中するように誘導する。
JointTunerは、UNetベースのモデルとDiffusion Transformerベースのモデルの両方と互換性がある。
論文 参考訳(メタデータ) (2025-03-31T11:04:07Z) - Motion-Aware Generative Frame Interpolation [23.380470636851022]
フローベースのフレーム法は、推定中間フローを通しての運動安定性を保証するが、複雑な動き領域で深刻なアーティファクトを導入することが多い。
大規模な事前学習ビデオ生成モデルによって強化された最近の生成的アプローチは、複雑なシーンの処理において有望であることを示している。
本研究では、中間フロー誘導と生成能力を相乗化して忠実度を高める動き認識生成フレーム(MoG)を提案する。
論文 参考訳(メタデータ) (2025-01-07T11:03:43Z) - InteractPro: A Unified Framework for Motion-Aware Image Composition [54.407337049352556]
動的モーション認識画像合成のための包括的フレームワークであるInteractProを紹介する。
コアとなるInteractPlanは、シナリオ分析とオブジェクト配置にLVLM(Large Vision Language Model)を活用するインテリジェントプランナーである。
それぞれのシナリオに基づいて、InteractPlanは2つの特別なモジュール、InteractPhysとInteractMotionを選択します。
論文 参考訳(メタデータ) (2024-09-16T08:44:17Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Attentive and Contrastive Learning for Joint Depth and Motion Field
Estimation [76.58256020932312]
単眼視システムからシーンの3次元構造とともにカメラの動きを推定することは複雑な作業である。
モノクロ映像からの3次元物体運動場推定のための自己教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T16:45:01Z) - Self-supervised Video Object Segmentation by Motion Grouping [79.13206959575228]
動きの手がかりを利用して物体をセグメンテーションできるコンピュータビジョンシステムを開発した。
本稿では,光フローフレームを一次オブジェクトと背景に分割するトランスフォーマーの簡単なバリエーションを紹介する。
提案したアーキテクチャを公開ベンチマーク(DAVIS2016, SegTrackv2, FBMS59)で評価する。
論文 参考訳(メタデータ) (2021-04-15T17:59:32Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。