Fugu-MT 論文翻訳(概要): Controllable Video Generation by Learning the Underlying Dynamical System with Neural ODE

論文の概要: Controllable Video Generation by Learning the Underlying Dynamical System with Neural ODE

arxiv url: http://arxiv.org/abs/2303.05323v1
Date: Thu, 9 Mar 2023 15:13:51 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-10 14:22:31.338980
Title: Controllable Video Generation by Learning the Underlying Dynamical System with Neural ODE
Title（参考訳）: ニューラルノードを用いた動的システム学習による制御可能な映像生成
Authors: Yucheng Xu, Nanbo Li, Arushi Goel, Zijian Guo, Zonghai Yao, Hamidreza Kasaei, Mohammadreze Kasaei, Zhibin Li
Abstract要約: 動的システムを学ぶことによって制御可能なビデオを生成することは、コンピュータビジョンコミュニティにおいて重要で未発見のトピックである。本稿では,静的画像とテキストキャプションから高制御可能なビデオを生成するための新しいフレームワークTiV-ODEを提案する。
参考スコア（独自算出の注目度）: 8.503547809083951
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Videos depict the change of complex dynamical systems over time in the form of discrete image sequences. Generating controllable videos by learning the dynamical system is an important yet underexplored topic in the computer vision community. This paper presents a novel framework, TiV-ODE, to generate highly controllable videos from a static image and a text caption. Specifically, our framework leverages the ability of Neural Ordinary Differential Equations~(Neural ODEs) to represent complex dynamical systems as a set of nonlinear ordinary differential equations. The resulting framework is capable of generating videos with both desired dynamics and content. Experiments demonstrate the ability of the proposed method in generating highly controllable and visually consistent videos, and its capability of modeling dynamical systems. Overall, this work is a significant step towards developing advanced controllable video generation models that can handle complex and dynamic scenes.
Abstract（参考訳）: ビデオは複雑な力学系の時間的変化を離散的な画像列の形で表現している。ダイナミックなシステムを学ぶことで制御可能なビデオを生成することは、コンピュータビジョンコミュニティにおいて重要で未熟なトピックである。本稿では,静的画像とテキストキャプションから高制御可能なビデオを生成するための新しいフレームワークTiV-ODEを提案する。具体的には, 非線形常微分方程式の集合として複素力学系を表現するために, 神経常微分方程式 (neural ordinary differential equation)~(neural odes) を活用した。このフレームワークは、望まれるダイナミック性とコンテンツの両方でビデオを生成することができる。実験では、高度に制御可能で視覚的に一貫したビデオを生成するための提案手法と、動的システムのモデリング能力を示す。全体として、この作業は複雑な動的シーンを処理できる高度な制御可能なビデオ生成モデルを開発するための重要なステップである。

関連論文リスト

From Generation to Generalization: Emergent Few-Shot Learning in Video Diffusion Models [65.0487600936788]
ビデオ拡散モデル(VDM)は高品質なコンテンツを合成できる強力な生成ツールとして登場した。我々は、VDMが自然に構造化された表現を探索し、視覚世界を暗黙的に理解することを主張する。提案手法は,各タスクを視覚遷移に変換し,短い入力シーケンス上でLoRA重みのトレーニングを可能にする。
論文参考訳（メタデータ） (2025-06-08T20:52:34Z)
Dimension-Reduction Attack! Video Generative Models are Experts on Controllable Image Synthesis [12.160537328404622]
textttDRA-Ctrlはリソース集約型ビデオモデルの再利用に関する新たな洞察を提供する。 textttDRA-Ctrlは、視覚的モダリティにまたがる将来の統一された生成モデルの基礎を築いている。
論文参考訳（メタデータ） (2025-05-29T10:34:45Z)
Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文参考訳（メタデータ） (2025-02-10T14:49:09Z)
ControlSynth Neural ODEs: Modeling Dynamical Systems with Guaranteed Convergence [1.1720409777196028]
ニューラルネットワーク(NODE)は、時間間隔の制限なしにデータを処理できる連続時間ニューラルネットワーク(NN)である。非常に非線形な性質にもかかわらず、収束はトラクタブル線型不等式によって保証されることを示す。 CSODEの合成において、異なるスケールで動的に同時に捕捉される可能性について学習するための余分な制御項を導入する。
論文参考訳（メタデータ） (2024-11-04T17:20:42Z)
Learning System Dynamics without Forgetting [60.08612207170659]
未知の力学を持つ系の軌道予測は、物理学や生物学を含む様々な研究分野において重要である。本稿では,モードスイッチンググラフODE (MS-GODE) の新たなフレームワークを提案する。生体力学の異なる多様な系を特徴とする生体力学システムの新しいベンチマークを構築した。
論文参考訳（メタデータ） (2024-06-30T14:55:18Z)
TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。 TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。 TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文参考訳（メタデータ） (2023-12-01T15:24:38Z)
Capturing Actionable Dynamics with Structured Latent Ordinary Differential Equations [68.62843292346813]
本稿では,その潜在表現内でのシステム入力の変動をキャプチャする構造付き潜在ODEモデルを提案する。静的変数仕様に基づいて,本モデルではシステムへの入力毎の変動要因を学習し,潜在空間におけるシステム入力の影響を分離する。
論文参考訳（メタデータ） (2022-02-25T20:00:56Z)
Constructing Neural Network-Based Models for Simulating Dynamical Systems [59.0861954179401]
データ駆動モデリングは、真のシステムの観測からシステムの力学の近似を学ぼうとする代替パラダイムである。本稿では,ニューラルネットワークを用いた動的システムのモデル構築方法について検討する。基礎的な概要に加えて、関連する文献を概説し、このモデリングパラダイムが克服すべき数値シミュレーションから最も重要な課題を概説する。
論文参考訳（メタデータ） (2021-11-02T10:51:42Z)
Uncovering Closed-form Governing Equations of Nonlinear Dynamics from Videos [8.546520029145853]
本稿では,動画中の移動物体の力学を規定する方程式の数学的構造を明らかにするために,新しいエンドツーエンドの非教師なしディープラーニングフレームワークを提案する。このようなアーキテクチャは,(1)移動物体の低次元空間/画素座標を学習するエンコーダ・デコーダネットワーク,(2)抽出された空間/画素座標と動的の潜在物理状態とのマッピングを生成する学習可能な空間-物理変換コンポーネント,(3)学習された物理状態の擬似閉形式支配方程式を明らかにする数値積分器ベースのスパース回帰モジュールからなる。
論文参考訳（メタデータ） (2021-06-09T02:50:11Z)
Dynamic View Synthesis from Dynamic Monocular Video [69.80425724448344]
動的シーンの単眼映像を与えられた任意の視点と任意の入力時間ステップでビューを生成するアルゴリズムを提案する。カジュアルな映像からの動的ビュー合成の定量的および定性的な結果を示す。
論文参考訳（メタデータ） (2021-05-13T17:59:50Z)
Hierarchical Decomposition of Nonlinear Dynamics and Control for System Identification and Policy Distillation [39.83837705993256]
強化学習(RL)の最近のトレンドは、力学と政策の複雑な表現に焦点を当てている。制御コミュニティからインスピレーションを得て、複雑なダイナミクスをより単純なコンポーネントに分解するために、ハイブリッドスイッチングシステムの原則を適用します。
論文参考訳（メタデータ） (2020-05-04T12:40:59Z)
Learning Stable Deep Dynamics Models [91.90131512825504]
状態空間全体にわたって安定することが保証される力学系を学習するためのアプローチを提案する。このような学習システムは、単純な力学系をモデル化することができ、複雑な力学を学習するために追加の深層生成モデルと組み合わせることができることを示す。
論文参考訳（メタデータ） (2020-01-17T00:04:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。