論文の概要: Learn the Force We Can: Multi-Object Video Generation from Pixel-Level
Interactions
- arxiv url: http://arxiv.org/abs/2306.03988v1
- Date: Tue, 6 Jun 2023 19:50:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 17:19:32.053312
- Title: Learn the Force We Can: Multi-Object Video Generation from Pixel-Level
Interactions
- Title(参考訳): 力の学習:Pixel-Levelインタラクションによるマルチオブジェクトビデオ生成
- Authors: Aram Davtyan and Paolo Favaro
- Abstract要約: 本稿では,単一のフレームとスパース動作入力から映像を自動回帰生成する新しい手法を提案する。
本手法の主な構成要素は、ランダム化条件付け方式、入力運動制御の符号化、ランダム化およびスパースサンプリングによる相関の破れである。
我々のモデルはヨーダと呼ばれ、物理的に触れることなく物体を動かすことができる。
- 参考スコア(独自算出の注目度): 27.913052825303097
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel unsupervised method to autoregressively generate videos
from a single frame and a sparse motion input. Our trained model can generate
realistic object-to-object interactions and separate the dynamics and the
extents of multiple objects despite only observing them under correlated motion
activities. Key components in our method are the randomized conditioning
scheme, the encoding of the input motion control, and the randomized and sparse
sampling to break correlations. Our model, which we call YODA, has the ability
to move objects without physically touching them. We show both qualitatively
and quantitatively that YODA accurately follows the user control, while
yielding a video quality that is on par with or better than state of the art
video generation prior work on several datasets. For videos, visit our project
website https://araachie.github.io/yoda.
- Abstract(参考訳): 本研究では,単一のフレームとスパース動作入力から映像を自動回帰生成する新しい教師なし手法を提案する。
学習したモデルでは, 物体と物体の相互作用を現実的に生成し, 複数の物体のダイナミックスと範囲を分離することができる。
本手法の重要な構成要素は,ランダム化条件付けスキーム,入力動作制御の符号化,ランダム化およびスパースサンプリングによる相関の破れである。
われわれのモデルはyodaと呼ばれ、物理的に触れることなく物体を動かすことができる。
ヨダがユーザコントロールを正確に追従すると同時に,複数のデータセットに先行するアートビデオ生成の状況と同等かそれ以上の画質の映像が得られることを,定性的かつ定量的に示す。
ビデオはプロジェクトのwebサイトhttps://araachie.github.io/yoda.comをご覧ください。
関連論文リスト
- VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models [71.9811050853964]
VideoJAMは、ビデオジェネレータの前に効果的な動きを注入する新しいフレームワークである。
VideoJAMは動きコヒーレンスにおける最先端のパフォーマンスを達成する。
これらの知見は、外観と動きが相補的であり、効果的に統合されると、映像生成の視覚的品質とコヒーレンスの両方を高めることを強調した。
論文 参考訳(メタデータ) (2025-02-04T17:07:10Z) - InterDyn: Controllable Interactive Dynamics with Video Diffusion Models [50.38647583839384]
我々は、初期フレームと駆動対象またはアクターの動作を符号化する制御信号が与えられたインタラクティブな動画像を生成するフレームワークであるInterDynを提案する。
私たちの重要な洞察は、大規模ビデオデータからインタラクティブなダイナミクスを学習することで、大きなビデオファンデーションモデルがニューラルと暗黙の物理シミュレータの両方として機能できるということです。
論文 参考訳(メタデータ) (2024-12-16T13:57:02Z) - Improving Dynamic Object Interactions in Text-to-Video Generation with AI Feedback [130.090296560882]
テキスト・ビデオ・モデルにおけるオブジェクトの動的性を高めるためのフィードバックの利用について検討する。
本手法は,動的インタラクションにおける映像品質の大幅な向上を駆動するバイナリAIフィードバックを用いて,多様な報酬を効果的に最適化できることを示す。
論文 参考訳(メタデータ) (2024-12-03T17:44:23Z) - Motion Dreamer: Realizing Physically Coherent Video Generation through Scene-Aware Motion Reasoning [27.690736225683825]
本稿では,2段階のビデオ生成フレームワークであるbfMotion Dreamerを提案する。
高忠実度ビデオ合成から動き推論を分離することにより、より正確で物理的に妥当な動き生成を可能にする。
我々の研究は、より一貫性があり現実的な方法で物理的相互作用を推論できるモデルを作成するための新しい道を開く。
論文 参考訳(メタデータ) (2024-11-30T17:40:49Z) - Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics [67.97235923372035]
本稿では,対話型ビデオ生成モデルであるPuppet-Masterについて紹介する。
テスト時には、ひとつのイメージと粗い動き軌跡が与えられた場合、Puppet-Masterは、与えられたドラッグ操作に忠実な現実的な部分レベルの動きを描写したビデオを合成することができる。
論文 参考訳(メタデータ) (2024-08-08T17:59:38Z) - TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z) - Understanding Object Dynamics for Interactive Image-to-Video Synthesis [8.17925295907622]
本稿では,局所的な操作によって自然に見えるグローバルな調音をピクセルレベルで学習する手法を提案する。
我々の生成モデルは、ユーザインタラクションに対する応答として、自然なオブジェクトのダイナミクスを推論することを学ぶ。
ビデオ予測に関する既存の研究とは対照的に、任意のリアルなビデオは合成しない。
論文 参考訳(メタデータ) (2021-06-21T17:57:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。