論文の概要: Characterizing Motion Encoding in Video Diffusion Timesteps
- arxiv url: http://arxiv.org/abs/2512.22175v1
- Date: Thu, 18 Dec 2025 21:20:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-04 08:45:17.095947
- Title: Characterizing Motion Encoding in Video Diffusion Timesteps
- Title(参考訳): ビデオ拡散時間ステップにおける動作符号化の特徴付け
- Authors: Vatsal Baherwani, Yixuan Ren, Abhinav Shrivastava,
- Abstract要約: 本研究では,映像拡散時間ステップにおける動きのエンコードについて,外観編集と動作保存のトレードオフによって検討する。
動作優位の早期体制と,その後に出現優位の体制を同定し,時間空間における動作優位の境界を導出する。
- 参考スコア(独自算出の注目度): 50.13907856401258
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-video diffusion models synthesize temporal motion and spatial appearance through iterative denoising, yet how motion is encoded across timesteps remains poorly understood. Practitioners often exploit the empirical heuristic that early timesteps mainly shape motion and layout while later ones refine appearance, but this behavior has not been systematically characterized. In this work, we proxy motion encoding in video diffusion timesteps by the trade-off between appearance editing and motion preservation induced when injecting new conditions over specified timestep ranges, and characterize this proxy through a large-scale quantitative study. This protocol allows us to factor motion from appearance by quantitatively mapping how they compete along the denoising trajectory. Across diverse architectures, we consistently identify an early, motion-dominant regime and a later, appearance-dominant regime, yielding an operational motion-appearance boundary in timestep space. Building on this characterization, we simplify current one-shot motion customization paradigm by restricting training and inference to the motion-dominant regime, achieving strong motion transfer without auxiliary debiasing modules or specialized objectives. Our analysis turns a widely used heuristic into a spatiotemporal disentanglement principle, and our timestep-constrained recipe can serve as ready integration into existing motion transfer and editing methods.
- Abstract(参考訳): テキスト・ビデオ拡散モデルでは時間的動きと空間的外観を反復的認知を通して合成するが、時間経過をまたいだ動きがどのように符号化されるかは理解されていない。
実践者はしばしば経験的なヒューリスティックを利用して、初期の段階は主に動きとレイアウトを形作るが、後の段階は外観を洗練させるが、この行動は体系的に特徴づけられていない。
本研究では、特定の時間経過範囲に新たな条件を注入する場合に、外観編集と動作保存のトレードオフによる映像拡散タイムステップの動作符号化をプロキシし、このプロキシを大規模に定量的に評価する。
このプロトコルは,視覚軌道に沿ってどのように競合するかを定量的にマッピングすることにより,外見から運動を決定できる。
多様なアーキテクチャ全体にわたって、我々は、初期、運動支配的な体制と、その後の外観支配的な体制を一貫して識別し、タイムステップ空間における操作的動き支配境界を導出する。
この特徴に基づいて,運動支配体制へのトレーニングと推論を制限し,補助的脱バイアスモジュールや特殊な目的を伴わずに強力な動き伝達を実現することにより,現在のワンショットモーションカスタマイズパラダイムを簡素化する。
我々の分析は、広く使われているヒューリスティックを時空間のゆがみ原理に変え、時間制限されたレシピは、既存のモーショントランスファーと編集方法への準備が整うのに役立つ。
関連論文リスト
- Towards Arbitrary Motion Completing via Hierarchical Continuous Representation [64.6525112550758]
Inlicit Representations(INR)に基づくNAMEと呼ばれる新しいパラメトリックアクティベーションによる階層的暗黙表現フレームワークを提案する。
本手法では,複数の時間スケールで動作列から特徴を抽出し,複雑な時間パターンを効果的に捕捉する階層的時間符号化機構を提案する。
論文 参考訳(メタデータ) (2025-12-24T14:07:04Z) - FunPhase: A Periodic Functional Autoencoder for Motion Generation via Phase Manifolds [2.6041136107390037]
動作の位相多様体を学習し、離散時間デコーディングを関数空間の定式化に置き換える機能周期型オートエンコーダFunPhaseを紹介する。
FunPhaseは、超分解能や部分体モーション補完などの下流タスクをサポートし、スケルトンとデータセットをまたいで一般化し、単一の解釈可能な多様体内でのモーション予測と生成を統一する。
論文 参考訳(メタデータ) (2025-12-10T08:46:53Z) - FlowMo: Variance-Based Flow Guidance for Coherent Motion in Video Generation [51.110607281391154]
FlowMoは、テキスト・ビデオ・モデルにおける動きコヒーレンスを高めるためのトレーニング不要のガイダンス手法である。
時間次元のパッチワイドな分散を測定して動きのコヒーレンスを推定し、サンプリング中にこの分散を動的に減少させるためにモデルを導く。
論文 参考訳(メタデータ) (2025-06-01T19:55:33Z) - REWIND: Real-Time Egocentric Whole-Body Motion Diffusion with Exemplar-Based Identity Conditioning [95.07708090428814]
本稿では,一段階拡散モデルREWINDを提案する。
身体中心運動と手の動きの相関を効果的にモデル化する。
また、ターゲットアイデンティティの小さなポーズ例に基づく新しいアイデンティティ条件付け手法を提案し、動き推定品質をさらに向上させる。
論文 参考訳(メタデータ) (2025-04-07T11:44:11Z) - Training-Free Motion-Guided Video Generation with Enhanced Temporal Consistency Using Motion Consistency Loss [35.69606926024434]
本稿では,初期雑音に基づくアプローチと新たな動きの整合性損失を組み合わせた,シンプルで効果的な解を提案する。
次に、生成したビデオに類似した特徴相関パターンを維持するために、動きの整合性損失を設計する。
このアプローチは、トレーニング不要のセットアップの利点を保ちながら、さまざまなモーションコントロールタスク間の時間的一貫性を改善する。
論文 参考訳(メタデータ) (2025-01-13T18:53:08Z) - Motion Inversion for Video Customization [31.607669029754874]
本稿では,映像モデルにおける動き表現の探索における広範なギャップに対処する,動き生成のための新しいアプローチを提案する。
本研究では,ビデオから抽出した時間的コヒーレントな埋め込みの集合であるMotion Embeddingsを紹介する。
我々の貢献には、カスタマイズタスクのための調整されたモーション埋め込みと、本手法の実用的メリットと有効性を示すことが含まれる。
論文 参考訳(メタデータ) (2024-03-29T14:14:22Z) - DiffusionPhase: Motion Diffusion in Frequency Domain [69.811762407278]
そこで本研究では,テキスト記述から高品質な人間の動作系列を生成する学習手法を提案する。
既存の技術は、任意の長さの動き列を生成する際に、動きの多様性と滑らかな遷移に苦しむ。
動作空間をコンパクトで表現力のあるパラメータ化位相空間に変換するネットワークエンコーダを開発する。
論文 参考訳(メタデータ) (2023-12-07T04:39:22Z) - Learning Self-Similarity in Space and Time as Generalized Motion for
Action Recognition [42.175450800733785]
ビデオ自己相似性(STSS)に基づくリッチな動き表現を提案する。
stssのボリューム全体を活用し、モデルに効果的なモーション表現を抽出させるようにしています。
SELFYと呼ばれる提案された神経ブロックは、追加の監督なしに簡単に神経アーキテクチャに挿入し、エンドツーエンドで訓練することができます。
論文 参考訳(メタデータ) (2021-02-14T07:32:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。