論文の概要: Video Generation with Learned Action Prior
- arxiv url: http://arxiv.org/abs/2406.14436v1
- Date: Thu, 20 Jun 2024 16:00:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 12:52:55.916851
- Title: Video Generation with Learned Action Prior
- Title(参考訳): 学習されたアクションによるビデオ生成
- Authors: Meenakshi Sarkar, Devansh Bhardwaj, Debasish Ghose,
- Abstract要約: カメラの動きが画像ピクセルと相互作用するので、カメラが動くプラットフォームにマウントされる場合、ビデオ生成は特に困難である。
既存の方法では、カメラのモーションダイナミクスを明示的にモデル化することなく、生のピクセルレベルの画像再構成に集中することで、この問題に対処するのが一般的である。
本稿では,観察された画像状態の一部としてカメラやアクションを考慮し,マルチAP学習フレームワーク内の画像状態とアクションの両方をモデル化する手法を提案する。
- 参考スコア(独自算出の注目度): 1.740992908651449
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Stochastic video generation is particularly challenging when the camera is mounted on a moving platform, as camera motion interacts with observed image pixels, creating complex spatio-temporal dynamics and making the problem partially observable. Existing methods typically address this by focusing on raw pixel-level image reconstruction without explicitly modelling camera motion dynamics. We propose a solution by considering camera motion or action as part of the observed image state, modelling both image and action within a multi-modal learning framework. We introduce three models: Video Generation with Learning Action Prior (VG-LeAP) treats the image-action pair as an augmented state generated from a single latent stochastic process and uses variational inference to learn the image-action latent prior; Causal-LeAP, which establishes a causal relationship between action and the observed image frame at time $t$, learning an action prior conditioned on the observed image states; and RAFI, which integrates the augmented image-action state concept into flow matching with diffusion generative processes, demonstrating that this action-conditioned image generation concept can be extended to other diffusion-based models. We emphasize the importance of multi-modal training in partially observable video generation problems through detailed empirical studies on our new video action dataset, RoAM.
- Abstract(参考訳): カメラの動きが観察された画像ピクセルと相互作用し、複雑な時空間ダイナミクスを生成し、問題を部分的に観察できるようにするため、カメラが動くプラットフォームにマウントされている場合、確率的ビデオ生成は特に困難である。
既存の方法では、カメラのモーションダイナミクスを明示的にモデル化することなく、生のピクセルレベルの画像再構成に集中することで、この問題に対処するのが一般的である。
本稿では,観察された画像状態の一部としてカメラの動きや動作を考慮し,マルチモーダル学習フレームワーク内の画像と動作の両方をモデル化する手法を提案する。
学習行動によるビデオ生成(VG-LeAP)は、単一の遅延確率過程から生成された拡張状態として画像-アクションペアを扱い、画像-アクションの遅延を学習するために変分推論を用いる。Causal-LeAPは、時間$t$でアクションと観測画像フレーム間の因果関係を確立し、観察された画像状態に条件付きアクションを学習し、RAFIは、拡張された画像-アクション状態の概念を拡散生成プロセスに適合するフローに統合し、このアクション条件の画像生成概念が他の拡散モデルに拡張可能であることを示す。
我々は,ビデオアクションデータセットRoAMの詳細な実験を通して,部分的に観察可能なビデオ生成問題におけるマルチモーダルトレーニングの重要性を強調した。
関連論文リスト
- Disentangling Foreground and Background Motion for Enhanced Realism in Human Video Generation [15.569467643817447]
異なる動き表現を用いて動きを分離することで、前景と背景のダイナミクスを同時に学習する手法を提案する。
我々は、この革新的な動きの描写アプローチによって強化された現実世界の動画を訓練する。
誤りを蓄積することなく、より長いシーケンスにビデオ生成をさらに拡張するために、クリップ・バイ・クリップ・ジェネレーション・ストラテジーを採用する。
論文 参考訳(メタデータ) (2024-05-26T00:53:26Z) - Action-conditioned video data improves predictability [1.9567015559455132]
Action-Conditioned Video Generation (ACVG)フレームワークは、ロボットのアクションに条件付けられたビデオシーケンスを生成する。
ACVGはロボットの動作に規定された映像シーケンスを生成し、視覚と行動が相互にどう影響するかの探索と分析を可能にする。
論文 参考訳(メタデータ) (2024-04-08T12:18:01Z) - Diffusion Priors for Dynamic View Synthesis from Monocular Videos [59.42406064983643]
ダイナミックノベルビュー合成は、ビデオ内の視覚的コンテンツの時間的進化を捉えることを目的としている。
まず、ビデオフレーム上に予め訓練されたRGB-D拡散モデルをカスタマイズ手法を用いて微調整する。
動的および静的なニューラルレイディアンス場を含む4次元表現に、微調整されたモデルから知識を蒸留する。
論文 参考訳(メタデータ) (2024-01-10T23:26:41Z) - Learning Variational Motion Prior for Video-based Motion Capture [31.79649766268877]
ビデオに基づくモーションキャプチャーのための新しい変分動作先行学習手法(VMP)を提案する。
我々のフレームワークはフレームワイドポーズ推定における時間的ジッタリングと障害モードを効果的に削減できる。
公開データセットとインザワイルドビデオの両方を用いた実験により、我々のフレームワークの有効性と一般化能力が実証された。
論文 参考訳(メタデータ) (2022-10-27T02:45:48Z) - Continuous-Time Video Generation via Learning Motion Dynamics with
Neural ODE [26.13198266911874]
動きと外観の異なる分布を学習する新しい映像生成手法を提案する。
本稿では,第1段階が任意のフレームレートで雑音ベクトルをキーポイント列に変換し,第2段階が与えられたキーポイントシーケンスと外観雑音ベクトルに基づいて映像を合成する2段階の手法を用いる。
論文 参考訳(メタデータ) (2021-12-21T03:30:38Z) - End-to-end Multi-modal Video Temporal Grounding [105.36814858748285]
ビデオから補完情報を抽出するマルチモーダルフレームワークを提案する。
我々は、外見にRGB画像、運動に光学フロー、画像構造に深度マップを採用する。
本稿では、Charades-STAおよびActivityNet Captionsデータセットの実験を行い、提案手法が最先端のアプローチに対して好適に動作することを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:10Z) - Self-Supervised Representation Learning from Flow Equivariance [97.13056332559526]
本稿では,複雑なシーンの映像ストリームに直接展開可能な,自己教師型学習表現フレームワークを提案する。
高分解能rawビデオから学んだ我々の表現は、静的画像の下流タスクに簡単に使用できます。
論文 参考訳(メタデータ) (2021-01-16T23:44:09Z) - Learning Temporal Dynamics from Cycles in Narrated Video [85.89096034281694]
時が経つにつれて世界がどのように変化するかをモデル化する学習問題に対する自己監督型ソリューションを提案します。
私たちのモデルは、前方および後方の時間を予測するためにモダリティに依存しない関数を学習します。
将来的な動作の予測や画像の時間的順序付けなど,様々なタスクに対して,学習されたダイナミクスモデルを適用する。
論文 参考訳(メタデータ) (2021-01-07T02:41:32Z) - Event-based Motion Segmentation with Spatio-Temporal Graph Cuts [51.17064599766138]
イベントベースカメラで取得したオブジェクトを独立に識別する手法を開発した。
この方法は、予想される移動物体の数を事前に決定することなく、技術状態よりも同等以上の性能を発揮する。
論文 参考訳(メタデータ) (2020-12-16T04:06:02Z) - Hierarchical Contrastive Motion Learning for Video Action Recognition [100.9807616796383]
本稿では,映像フレームから効果的な動き表現を抽出する自己教師型学習フレームワークである階層型コントラスト学習を提案する。
提案手法は,ネットワーク内の異なる抽象レベルに対応する動作特徴の階層構造を段階的に学習する。
私たちのモーション学習モジュールは軽量で柔軟性があり、様々なバックボーンネットワークに組み込むことができます。
論文 参考訳(メタデータ) (2020-07-20T17:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。