論文の概要: Bitrate-Controlled Diffusion for Disentangling Motion and Content in Video
- arxiv url: http://arxiv.org/abs/2509.08376v1
- Date: Wed, 10 Sep 2025 08:14:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.353937
- Title: Bitrate-Controlled Diffusion for Disentangling Motion and Content in Video
- Title(参考訳): ビデオの遠方運動とコンテンツのためのビット制御拡散
- Authors: Xiao Li, Qi Chen, Xiulian Peng, Kai Yu, Xie Chen, Yan Lu,
- Abstract要約: 本稿では,動画データを動的モーションと静的コンテンツコンポーネントにアンタングルする,新しい汎用フレームワークを提案する。
提案手法は,従来よりも仮定や帰納バイアスの少ない自己教師型パイプラインである。
実世界の対話型ヘッドビデオにおける非交互表現学習フレームワークの動作伝達と自動回帰動作生成タスクの有効性を検証した。
- 参考スコア(独自算出の注目度): 38.71994714429696
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel and general framework to disentangle video data into its dynamic motion and static content components. Our proposed method is a self-supervised pipeline with less assumptions and inductive biases than previous works: it utilizes a transformer-based architecture to jointly generate flexible implicit features for frame-wise motion and clip-wise content, and incorporates a low-bitrate vector quantization as an information bottleneck to promote disentanglement and form a meaningful discrete motion space. The bitrate-controlled latent motion and content are used as conditional inputs to a denoising diffusion model to facilitate self-supervised representation learning. We validate our disentangled representation learning framework on real-world talking head videos with motion transfer and auto-regressive motion generation tasks. Furthermore, we also show that our method can generalize to other types of video data, such as pixel sprites of 2D cartoon characters. Our work presents a new perspective on self-supervised learning of disentangled video representations, contributing to the broader field of video analysis and generation.
- Abstract(参考訳): 本稿では,動画データを動的モーションと静的コンテンツコンポーネントにアンタングルする,新しい汎用フレームワークを提案する。
提案手法は,従来よりも仮定や帰納バイアスの少ない自己教師型パイプラインであり,フレームワイドな動きやクリップワイドなコンテンツに対して,フレキシブルな暗黙的特徴を共同生成するトランスフォーマーアーキテクチャを用いて,低ビットのベクトル量子化を情報ボトルネックとして組み込んで,絡み合いを促進し,意味のある離散的な動き空間を形成する。
ビットレート制御された潜伏運動と内容は、自己教師付き表現学習を容易にするために、デノナイジング拡散モデルに対する条件入力として使用される。
実世界の対話型ヘッドビデオにおける非交互表現学習フレームワークの動作伝達と自動回帰動作生成タスクの有効性を検証した。
さらに,本手法は,2次元キャラクタの画素スプライトなど,他の種類の映像データにも適用可能であることを示す。
本研究は,ビデオ解析と生成の幅広い分野に寄与する,不整合な映像表現の自己教師型学習に関する新たな視点を示す。
関連論文リスト
- SynMotion: Semantic-Visual Adaptation for Motion Customized Video Generation [56.90807453045657]
SynMotion(シンモクション)は、セマンティックガイダンスと視覚適応を併用した動画生成モデルである。
意味レベルでは、主観と動きの表現をアンタングルする二項意味理解機構を導入する。
視覚レベルでは、効率的なモーションアダプタをトレーニング済みのビデオ生成モデルに統合し、動きの忠実度と時間的コヒーレンスを高める。
論文 参考訳(メタデータ) (2025-06-30T10:09:32Z) - Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。
ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。
我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文 参考訳(メタデータ) (2024-12-03T18:59:56Z) - Video Diffusion Models are Training-free Motion Interpreter and Controller [20.361790608772157]
本稿では,映像拡散モデルにおける動き認識機能を理解し,ローカライズし,操作するための新しい視点を提案する。
コンテンツ相関情報とフィルタリング動作チャネルを除去し,MOFT(Motion FeaTure)を提案する。
論文 参考訳(メタデータ) (2024-05-23T17:59:40Z) - TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - Dynamic Appearance: A Video Representation for Action Recognition with
Joint Training [11.746833714322154]
本稿では,映像中の動きに関連する外観情報を要約した新しい概念である動的外観(DA)を紹介する。
生のビデオデータからダイナミックな外観を抽出する手法を,効率的な映像理解の手段として検討する。
4つの行動認識ベンチマークにおいて、広範囲な実験結果を提供する。
論文 参考訳(メタデータ) (2022-11-23T07:16:16Z) - MotionSqueeze: Neural Motion Feature Learning for Video Understanding [46.82376603090792]
モーションはビデオを理解する上で重要な役割を担い、ビデオ分類のための最先端のニューラルモデルにはモーション情報が含まれる。
本研究では,光学流の外部および重い計算を内部および軽量な運動特徴学習に置き換える。
提案手法は,アクション認識のための4つの標準ベンチマークにおいて,少ない追加コストで大幅に向上できることを実証する。
論文 参考訳(メタデータ) (2020-07-20T08:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。