Fugu-MT 論文翻訳(概要): InterDyn: Controllable Interactive Dynamics with Video Diffusion Models

論文の概要: InterDyn: Controllable Interactive Dynamics with Video Diffusion Models

arxiv url: http://arxiv.org/abs/2412.11785v1
Date: Mon, 16 Dec 2024 13:57:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-17 15:50:00.408133
Title: InterDyn: Controllable Interactive Dynamics with Video Diffusion Models
Title（参考訳）: InterDyn:ビデオ拡散モデルによる制御可能なインタラクティブダイナミクス
Authors: Rick Akkerman, Haiwen Feng, Michael J. Black, Dimitrios Tzionas, Victoria Fernández Abrevaya,
Abstract要約: 我々は、初期フレームと駆動対象またはアクターの動作を符号化する制御信号が与えられたインタラクティブな動画像を生成するフレームワークであるInterDynを提案する。私たちの重要な洞察は、大規模ビデオデータからインタラクティブなダイナミクスを学習することで、大きなビデオファンデーションモデルがニューラルと暗黙の物理シミュレータの両方として機能できるということです。
参考スコア（独自算出の注目度）: 50.38647583839384
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Predicting the dynamics of interacting objects is essential for both humans and intelligent systems. However, existing approaches are limited to simplified, toy settings and lack generalizability to complex, real-world environments. Recent advances in generative models have enabled the prediction of state transitions based on interventions, but focus on generating a single future state which neglects the continuous motion and subsequent dynamics resulting from the interaction. To address this gap, we propose InterDyn, a novel framework that generates videos of interactive dynamics given an initial frame and a control signal encoding the motion of a driving object or actor. Our key insight is that large video foundation models can act as both neural renderers and implicit physics simulators by learning interactive dynamics from large-scale video data. To effectively harness this capability, we introduce an interactive control mechanism that conditions the video generation process on the motion of the driving entity. Qualitative results demonstrate that InterDyn generates plausible, temporally consistent videos of complex object interactions while generalizing to unseen objects. Quantitative evaluations show that InterDyn outperforms baselines that focus on static state transitions. This work highlights the potential of leveraging video generative models as implicit physics engines.
Abstract（参考訳）: 相互作用する物体の力学を予測することは、人間と知的システムの両方にとって不可欠である。しかし、既存のアプローチは、単純化されたおもちゃの設定に限られており、複雑な現実世界環境への一般化性が欠如している。生成モデルの最近の進歩により、介入に基づく状態遷移の予測が可能になったが、連続的な動きやその後の相互作用によるダイナミクスを無視した単一の未来状態の生成に焦点が当てられている。このギャップに対処するために、初期フレームと駆動対象またはアクターの動作を符号化する制御信号が与えられたインタラクティブなダイナミクスのビデオを生成する新しいフレームワークであるInterDynを提案する。私たちの重要な洞察は、大規模ビデオデータからインタラクティブなダイナミクスを学習することで、大きなビデオファンデーションモデルがニューラルレンダラーと暗黙の物理シミュレータの両方として機能できるということです。この機能を効果的に活用するために、駆動体の動きに映像生成プロセスを設定する対話型制御機構を導入する。定性的な結果から、InterDynは複雑なオブジェクト相互作用の可塑性、時間的に一貫したビデオを生成し、見えないオブジェクトに一般化することを示した。定量的評価では、InterDynは静的状態遷移に焦点を当てたベースラインよりも優れている。この研究は、ビデオ生成モデルを暗黙の物理エンジンとして活用する可能性を強調している。

関連論文リスト

VLIPP: Towards Physically Plausible Video Generation with Vision and Language Informed Physical Prior [88.51778468222766]
近年,映像拡散モデル (VDM) が大幅に進歩し,映像のリアル化が進んでいる。 VDMは物理の理解の欠如のため、物理的にもっともらしいビデオを作ることができないことが多い。本稿では,物理を視覚と言語に明示的に組み込んだ新しい2段階画像・映像生成フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-30T09:03:09Z)
Human-Object Interaction with Vision-Language Model Guided Relative Movement Dynamics [30.43930233035367]
本稿では,統合されたオブジェクトインタラクションフレームワークを提案する。静的シーンと動的オブジェクトとのインタラクションを言語コマンドを使って統一的に制御する。我々のフレームワークは動的、調音的、静的なオブジェクト間の長い水平相互作用をサポートしている。
論文参考訳（メタデータ） (2025-03-24T05:18:04Z)
VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models [71.9811050853964]
VideoJAMは、ビデオジェネレータの前に効果的な動きを注入する新しいフレームワークである。 VideoJAMは動きコヒーレンスにおける最先端のパフォーマンスを達成する。これらの知見は、外観と動きが相補的であり、効果的に統合されると、映像生成の視覚的品質とコヒーレンスの両方を高めることを強調した。
論文参考訳（メタデータ） (2025-02-04T17:07:10Z)
Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文参考訳（メタデータ） (2024-12-03T18:59:56Z)
Improving Dynamic Object Interactions in Text-to-Video Generation with AI Feedback [130.090296560882]
テキスト・ビデオ・モデルにおけるオブジェクトの動的性を高めるためのフィードバックの利用について検討する。本手法は,動的インタラクションにおける映像品質の大幅な向上を駆動するバイナリAIフィードバックを用いて,多様な報酬を効果的に最適化できることを示す。
論文参考訳（メタデータ） (2024-12-03T17:44:23Z)
Motion Dreamer: Realizing Physically Coherent Video Generation through Scene-Aware Motion Reasoning [27.690736225683825]
本稿では,2段階のビデオ生成フレームワークであるbfMotion Dreamerを提案する。高忠実度ビデオ合成から動き推論を分離することにより、より正確で物理的に妥当な動き生成を可能にする。我々の研究は、より一貫性があり現実的な方法で物理的相互作用を推論できるモデルを作成するための新しい道を開く。
論文参考訳（メタデータ） (2024-11-30T17:40:49Z)
EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文参考訳（メタデータ） (2024-06-28T10:39:36Z)
TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。 TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。 TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文参考訳（メタデータ） (2023-12-01T15:24:38Z)
Learn the Force We Can: Enabling Sparse Motion Control in Multi-Object Video Generation [26.292052071093945]
単一のフレームとスパース動作入力からビデオを生成する教師なしの手法を提案する。我々の訓練されたモデルは、目に見えない現実的なオブジェクト間相互作用を生成できる。ヨダは、制御性と映像品質の両面において、先行するアートビデオ生成の状況と同等かそれ以上であることを示す。
論文参考訳（メタデータ） (2023-06-06T19:50:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。