論文の概要: Motion Prior Distillation in Time Reversal Sampling for Generative Inbetweening
- arxiv url: http://arxiv.org/abs/2602.12679v2
- Date: Thu, 19 Feb 2026 09:50:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.18467
- Title: Motion Prior Distillation in Time Reversal Sampling for Generative Inbetweening
- Title(参考訳): 世代間インベンションのための時間逆サンプリングにおける事前蒸留の動作
- Authors: Wooseok Jeon, Seunghyun Shin, Dongmin Shin, Hae-Gon Jeon,
- Abstract要約: 本稿では, 簡易かつ効果的な推定時間蒸留技術である運動優先蒸留(MPD)を提案する。
MPDは前方経路の運動残差を後方経路に蒸留することで双方向のミスマッチを抑制する。
本手法は,経路のあいまいさの原因となる条件付き経路を意図的に denoizing することを避けることができる。
- 参考スコア(独自算出の注目度): 23.537461698380607
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in image-to-video (I2V) diffusion models has significantly advanced the field of generative inbetweening, which aims to generate semantically plausible frames between two keyframes. In particular, inference-time sampling strategies, which leverage the generative priors of large-scale pre-trained I2V models without additional training, have become increasingly popular. However, existing inference-time sampling, either fusing forward and backward paths in parallel or alternating them sequentially, often suffers from temporal discontinuities and undesirable visual artifacts due to the misalignment between the two generated paths. This is because each path follows the motion prior induced by its own conditioning frame. In this work, we propose Motion Prior Distillation (MPD), a simple yet effective inference-time distillation technique that suppresses bidirectional mismatch by distilling the motion residual of the forward path into the backward path. Our method can deliberately avoid denoising the end-conditioned path which causes the ambiguity of the path, and yield more temporally coherent inbetweening results with the forward motion prior. We not only perform quantitative evaluations on standard benchmarks, but also conduct extensive user studies to demonstrate the effectiveness of our approach in practical scenarios.
- Abstract(参考訳): 画像間拡散モデル(I2V)の最近の進歩は、2つのキーフレーム間で意味論的に妥当なフレームを生成することを目的とした生成的内在化の分野を著しく進歩させてきた。
特に,大規模事前学習型I2Vモデルの生成先行を付加訓練なしで活用する推論時サンプリング戦略が人気を博している。
しかしながら、既存の推論時間サンプリングは、前方と後方の経路を平行に融合させたり、それらを順次交互に交互に切り替えたりすることは、しばしば、2つの生成された経路間の不一致により、時間的不連続性と望ましくない視覚的アーティファクトに悩まされる。
これは、各経路が自身の条件フレームによって事前に誘導される動きに従うためである。
本研究では,前進路から後進路への移動残差を蒸留することにより,双方向のミスマッチを抑制する簡易かつ効果的な推論時間蒸留技術である運動優先蒸留(MPD)を提案する。
提案手法は,経路のあいまいさの原因となる条件付き経路のデノベートを意図的に回避し,前向きの動きとより時間的に整合性のあるインテツニング結果が得られる。
我々は,標準ベンチマークで定量的評価を行うだけでなく,実践シナリオにおけるアプローチの有効性を実証するための広範なユーザスタディも実施している。
関連論文リスト
- STEP: Warm-Started Visuomotor Policies with Spatiotemporal Consistency Prediction [16.465783114087223]
反復デノゲーションは、リアルタイム閉ループシステムにおける制御周波数を制限し、相当な推論遅延をもたらす。
高品質なウォームスタート動作を構築するための軽量時整合予測機構STEPを提案する。
2段階のSTEPは、RoboMimicベンチマークや実世界のタスクでBRIDGERやDDIMよりも平均21.6%、27.5%高い成功率を達成することができる。
論文 参考訳(メタデータ) (2026-02-09T03:50:40Z) - Action-to-Action Flow Matching [25.301629044539325]
拡散に基づく政策は、最近、条件付き認知過程として行動予測を定式化することで、ロボット工学において顕著な成功を収めた。
本稿では,A2A(Action-to-Action Flow Match)を提案する。
A2Aは単一の推論ステップ(0.56msレイテンシ)で高品質なアクション生成を可能にし、視覚摂動に優れた堅牢性を示し、目に見えない構成に一般化する。
論文 参考訳(メタデータ) (2026-02-07T02:39:49Z) - FlowConsist: Make Your Flow Consistent with Real Trajectory [99.22869983378062]
現在の高速フロートレーニングパラダイムには,2つの根本的な問題がある,と我々は主張する。
ランダムにペアリングされたノイズデータサンプルから構築された条件付き速度は、系統的な軌跡ドリフトを導入する。
本研究では,高速フローにおける軌道整合性を実現するためのトレーニングフレームワークであるFlowConsistを提案する。
論文 参考訳(メタデータ) (2026-02-06T03:24:23Z) - Accelerated Sequential Flow Matching: A Bayesian Filtering Perspective [16.29333060724397]
本稿では,ベイズフィルタを基盤とした逐次フローマッチングについて紹介する。
ストリーミング推論を,あるステップから次のステップへ予測分布を伝達する確率フローの学習として扱うことにより,ベイズ的信念更新の構造と自然に一致させる。
本手法は, サンプリングステップを1回, ごく少数必要としながら, フルステップ拡散と性能を競合させ, サンプリングを高速化する。
論文 参考訳(メタデータ) (2026-02-05T05:37:14Z) - Euphonium: Steering Video Flow Matching via Process Reward Gradient Guided Stochastic Dynamics [49.242224984144904]
本稿では,プロセス報酬勾配誘導ダイナミクスによる生成を支援する新しいフレームワークであるEuphoniumを提案する。
我々の重要な洞察は、プロセス・リワード・モデルの勾配を明示的に組み込んだ理論的に原理化されたアルゴリズムとしてサンプリング・プロセスを定式化することである。
我々は,誘導信号をフローネットワークに内部化する蒸留目標を導出し,報奨モデルへの推論時間依存性を排除した。
論文 参考訳(メタデータ) (2026-02-04T08:59:57Z) - SynCast: Synergizing Contradictions in Precipitation Nowcasting via Diffusion Sequential Preference Optimization [62.958457694151384]
本研究では,大規模な言語モデルにおける人的フィードバックからの強化学習の成功を動機として,降水量の最適化を初めて導入する。
第一段階では、フレームワークはFARを減らすことに焦点を当て、誤報を効果的に抑えるためにモデルを訓練する。
論文 参考訳(メタデータ) (2025-10-22T16:11:22Z) - SwiftVideo: A Unified Framework for Few-Step Video Generation through Trajectory-Distribution Alignment [76.60024640625478]
拡散ベースまたはフローベースモデルは、ビデオ合成において大きな進歩を遂げているが、複数の反復サンプリングステップが必要である。
本稿では, トラジェクトリ保存と分散マッチングの利点を組み合わせた, 統一かつ安定な蒸留フレームワークを提案する。
提案手法は高品質なビデオ生成を維持しつつ,推論ステップの数を著しく削減する。
論文 参考訳(メタデータ) (2025-08-08T07:26:34Z) - SCoT: Unifying Consistency Models and Rectified Flows via Straight-Consistent Trajectories [31.60548236936739]
本研究では,事前学習した拡散モデルに対する直線一貫性軌道(SCoT)モデルを提案する。
SCoTは、高速サンプリングのための両方のアプローチの利点を享受し、一貫した特性と直線的な性質のトラジェクトリを同時に生成する。
論文 参考訳(メタデータ) (2025-02-24T08:57:19Z) - Sequential Controlled Langevin Diffusions [94.82767690147865]
2つの一般的な方法として,(1) 所定のマルコフ連鎖と再サンプリング工程を通した連続モンテカルロ (SMC) と,(2) 学習された動的輸送を用いる拡散に基づくサンプリング手法が最近開発された。
本稿では,SMC と拡散型サンプリング器を連続的に観察し,経路空間の測度を考慮し,SMC と拡散型サンプリング器を組み合わせるための基本的枠組みを提案する。
これは、従来の拡散のトレーニング予算の10%しか使用しない場合が多いが、これらの手法の利点を活用でき、複数のベンチマーク問題の性能向上に資するSCLD(Sequential Controlled Langevin Diffusion)サンプリング手法の成果である。
論文 参考訳(メタデータ) (2024-12-10T00:47:10Z) - A Dense Reward View on Aligning Text-to-Image Diffusion with Preference [54.43177605637759]
本稿では,T2I逆鎖の初期ステップを強調する,トラクタブルアライメントの目的を提案する。
単一および複数プロンプト生成の実験では,本手法は強い関連するベースラインと競合する。
論文 参考訳(メタデータ) (2024-02-13T07:37:24Z) - Synthesizing Long-Term Human Motions with Diffusion Models via Coherent
Sampling [74.62570964142063]
テキスト・トゥ・モーション・ジェネレーションは注目されているが、既存の手法のほとんどは短期的な動きに限られている。
本稿では,2つのコヒーレントサンプリング手法を用いた過去の拡散モデルを用いた新しい手法を提案する。
提案手法は,ユーザの指示した長文ストリームによって制御された,構成的かつコヒーレントな3次元人間の動作を生成することができる。
論文 参考訳(メタデータ) (2023-08-03T16:18:32Z) - Human Motion Diffusion as a Generative Prior [20.004837564647367]
拡散先行に基づく3種類の合成法を提案する。
長いシーケンス生成の課題に取り組みます。
並列合成を用いて、2人の世代に向けた有望なステップを示す。
論文 参考訳(メタデータ) (2023-03-02T17:09:27Z) - A Deep Temporal Fusion Framework for Scene Flow Using a Learnable Motion
Model and Occlusions [17.66624674542256]
複数フレーム構成におけるシーンフロー推定の時間的融合のための新しいデータ駆動手法を提案する。
第2のステップでは、ニューラルネットワークが共通の参照フレームから双方向のシーンフロー推定値を合成し、洗練された推定値を生成する。
このようにして、本手法は、複数のシーンフロー推定器に対して高速なマルチフレーム拡張を提供し、基礎となるデュアルフレームアプローチよりも優れている。
論文 参考訳(メタデータ) (2020-11-03T10:14:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。