論文の概要: InterDyn: Controllable Interactive Dynamics with Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2412.11785v2
- Date: Fri, 28 Feb 2025 13:16:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:38:09.788243
- Title: InterDyn: Controllable Interactive Dynamics with Video Diffusion Models
- Title(参考訳): InterDyn:ビデオ拡散モデルによる制御可能なインタラクティブダイナミクス
- Authors: Rick Akkerman, Haiwen Feng, Michael J. Black, Dimitrios Tzionas, Victoria Fernández Abrevaya,
- Abstract要約: 我々は、初期フレームと駆動対象またはアクターの動作を符号化する制御信号が与えられたインタラクティブなダイナミクスのビデオを生成するフレームワークであるInterDynを提案する。
私たちの重要な洞察は、大規模なビデオ生成モデルは、大規模ビデオデータからインタラクティブなダイナミクスを学習し、ニューラルネットワークと暗黙の物理シミュレータの両方として機能できるということです。
- 参考スコア(独自算出の注目度): 50.38647583839384
- License:
- Abstract: Predicting the dynamics of interacting objects is essential for both humans and intelligent systems. However, existing approaches are limited to simplified, toy settings and lack generalizability to complex, real-world environments. Recent advances in generative models have enabled the prediction of state transitions based on interventions, but focus on generating a single future state which neglects the continuous dynamics resulting from the interaction. To address this gap, we propose InterDyn, a novel framework that generates videos of interactive dynamics given an initial frame and a control signal encoding the motion of a driving object or actor. Our key insight is that large video generation models can act as both neural renderers and implicit physics simulators, having learned interactive dynamics from large-scale video data. To effectively harness this capability, we introduce an interactive control mechanism that conditions the video generation process on the motion of the driving entity. Qualitative results demonstrate that InterDyn generates plausible, temporally consistent videos of complex object interactions while generalizing to unseen objects. Quantitative evaluations show that InterDyn outperforms baselines that focus on static state transitions. This work highlights the potential of leveraging video generative models as implicit physics engines. Code and trained models will be released at: https://interdyn.is.tue.mpg.de/
- Abstract(参考訳): 相互作用する物体の力学を予測することは、人間と知的システムの両方にとって不可欠である。
しかし、既存のアプローチは、単純化されたおもちゃの設定に限られており、複雑な現実世界環境への一般化性が欠如している。
生成モデルの最近の進歩により、介入に基づく状態遷移の予測が可能になったが、相互作用によって生じる連続的なダイナミクスを無視した単一の未来状態の生成に焦点が当てられている。
このギャップに対処するために、初期フレームと駆動対象またはアクターの動作を符号化する制御信号が与えられたインタラクティブなダイナミクスのビデオを生成する新しいフレームワークであるInterDynを提案する。
私たちの重要な洞察は、大規模なビデオ生成モデルは、大規模ビデオデータからインタラクティブなダイナミクスを学習し、ニューラルレンダラーと暗黙の物理シミュレータの両方として機能できるということです。
この機能を効果的に活用するために、駆動体の動きに映像生成プロセスを設定する対話型制御機構を導入する。
定性的な結果から、InterDynは複雑なオブジェクト相互作用の可塑性、時間的に一貫したビデオを生成し、見えないオブジェクトに一般化することを示した。
定量的評価では、InterDynは静的状態遷移に焦点を当てたベースラインを上回っている。
この研究は、ビデオ生成モデルを暗黙の物理エンジンとして活用する可能性を強調している。
コードとトレーニングされたモデルは、次の通りリリースされる。
関連論文リスト
- Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models [71.9811050853964]
VideoJAMは、ビデオジェネレータの前に効果的な動きを注入する新しいフレームワークである。
VideoJAMは動きコヒーレンスにおける最先端のパフォーマンスを達成する。
これらの知見は、外観と動きが相補的であり、効果的に統合されると、映像生成の視覚的品質とコヒーレンスの両方を高めることを強調した。
論文 参考訳(メタデータ) (2025-02-04T17:07:10Z) - Improving Dynamic Object Interactions in Text-to-Video Generation with AI Feedback [130.090296560882]
テキスト・ビデオ・モデルにおけるオブジェクトの動的性を高めるためのフィードバックの利用について検討する。
本手法は,動的インタラクションにおける映像品質の大幅な向上を駆動するバイナリAIフィードバックを用いて,多様な報酬を効果的に最適化できることを示す。
論文 参考訳(メタデータ) (2024-12-03T17:44:23Z) - EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。
動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文 参考訳(メタデータ) (2024-06-28T10:39:36Z) - TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - Learn the Force We Can: Enabling Sparse Motion Control in Multi-Object
Video Generation [26.292052071093945]
単一のフレームとスパース動作入力からビデオを生成する教師なしの手法を提案する。
我々の訓練されたモデルは、目に見えない現実的なオブジェクト間相互作用を生成できる。
ヨダは、制御性と映像品質の両面において、先行するアートビデオ生成の状況と同等かそれ以上であることを示す。
論文 参考訳(メタデータ) (2023-06-06T19:50:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。