Fugu-MT 論文翻訳(概要): Physics in 2-Steps: Locking Motion Priors Before Visual Refinement Erases Them

論文の概要: Physics in 2-Steps: Locking Motion Priors Before Visual Refinement Erases Them

arxiv url: http://arxiv.org/abs/2606.06361v1
Date: Thu, 04 Jun 2026 16:30:39 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-05 22:39:44.959587
Title: Physics in 2-Steps: Locking Motion Priors Before Visual Refinement Erases Them
Title（参考訳）: 2段階の物理:視覚のリファインメントが消える前に動きをロックする
Authors: Woojung Han, Seil Kang, Youngjun Jun, Min-Hung Chen, Fu-En Yang, Seong Jae Hwang,
Abstract要約: 2ステップ生成は、しばしば同じモデルからの50ステップ出力よりも優れた物理的整合性を示す。数ステップの推論から有効な動作先を保存するためのトレーニング不要のフレームワークであるPhaseLockを提案する。
参考スコア（独自算出の注目度）: 23.711118061544454
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Image-to-Video diffusion models leverage input images to generate visually stunning content, yet frequently produce motion that violates physical laws. We reveal a surprising finding: a 2-step generation often exhibits better physical consistency than a 50-step output from the same model. Through spectral analysis, we trace this to phase erosion during denoising; the phase degrades significantly (dropping by $\approx 18\%$ from step 2 to step 50), whereas the magnitude remains relatively stable. Building on this insight, we propose PhaseLock, a training-free framework that preserves the valid motion priors from few-step inference throughout the denoising trajectory. Rather than relying on full-step inference for physical consistency, PhaseLock extracts a motion prior from just 2 steps and enforces it onto high-fidelity generation via Latent Delta Guidance. Our approach effectively mitigates phase degradation, improving physical consistency by an average of 6.2 points across diverse models while largely maintaining visual fidelity, with negligible overhead ($1.06\times$ time, $1.02\times$ memory) and reduced reliance on expensive external guidance methods ($\sim5\times$ time).
Abstract（参考訳）: 画像間拡散モデルは入力画像を利用して視覚的に素晴らしいコンテンツを生成するが、物理法則に違反した動きを頻繁に生成する。 2段階の世代は、しばしば同じモデルから50段階の出力よりも優れた物理的一貫性を示す。スペクトル分析により、これをデノナイジング中の位相侵食に追従し、位相は著しく低下する(ステップ2からステップ50まで$\approx 18\%)が、大きさは比較的安定している。この知見に基づいて,数段階の推論から有効な動作履歴を保存するための学習自由フレームワークであるPhaseLockを提案する。物理的整合性のために全ステップの推論に頼るのではなく、フェーズロックはわずか2ステップから動きを抽出し、遅延デルタ誘導による高忠実度生成に強制する。我々のアプローチは、位相劣化を効果的に軽減し、視覚的忠実度を保ちながら、様々なモデルの平均6.2ポイントの物理的整合性を向上し、無視できるオーバーヘッド(1.06\times$ time, $1.02\times$ memory)と、高価な外部ガイダンス手法(\sim5\times$ time)に依存しない。

関連論文リスト

Eulerian Motion Guidance: Robust Image Animation via Bidirectional Geometric Consistency [74.90075313101933]
本稿では、より局所的な監視設計により、同じ光フロープリミティブを再考する。我々は隣接フレームのユーレアン運動場を用いて生成を誘導し、そこでは運動信号が常に短い時間ホップを記述する。隣接するフレーム生成に共通するドリフトアーティファクトを軽減するために,双方向幾何整合機構を導入する。
論文参考訳（メタデータ） (2026-05-07T13:53:31Z)
Streaming Autoregressive Video Generation via Diagonal Distillation [50.13573884115673]
自己回帰モデルは、シーケンシャルフレーム合成のための自然なフレームワークを提供するが、高い忠実性を達成するためには重い計算を必要とする。ビデオチャンクとデノイングステップの時間的情報を活用するために,ダイアゴナル蒸留を提案する。本手法は,2.61秒(最大31FPS)で5秒ビデオを生成し,未蒸留モデル上で277.3倍のスピードアップを実現する。
論文参考訳（メタデータ） (2026-03-10T10:45:24Z)
Predict to Skip: Linear Multistep Feature Forecasting for Efficient Diffusion Transformers [10.751183015853863]
拡散変換器(DiT)は高忠実度画像とビデオ生成のバックボーンとして広く採用されている。線形多段階問題として特徴予測を定式化する,トレーニング不要なアクセラレーションフレームワークである textbfPrediT を提案する。提案手法は,DiTベースの画像およびビデオ生成モデル間で最大5.54タイムのレイテンシ低減を実現し,品質劣化を生じさせる。
論文参考訳（メタデータ） (2026-02-20T09:33:59Z)
Free-T2M: Robust Text-to-Motion Generation for Humanoid Robots via Frequency-Domain [17.042533970366105]
本稿では周波数領域の観点からT2M問題を再構成する。本稿では、段階固有の周波数領域の整合性を考慮したフレームワークであるFluquency enhanced text-to-motion(Free-T2M)を紹介する。大規模な実験により,本手法は動作品質と意味的正しさを劇的に向上させることが示された。
論文参考訳（メタデータ） (2025-01-30T09:45:23Z)
Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文参考訳（メタデータ） (2024-10-18T22:38:08Z)
MotionMix: Weakly-Supervised Diffusion for Controllable Motion Generation [19.999239668765885]
MotionMixはノイズと無注釈の両方のモーションシーケンスを利用する弱い教師付き拡散モデルである。我々のフレームワークは、テキスト・トゥ・モーション、アクション・トゥ・モーション、音楽・トゥ・ダンスのタスクにおける最先端のパフォーマンスを一貫して達成する。
論文参考訳（メタデータ） (2024-01-20T04:58:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。