論文の概要: Learn the Force We Can: Multi-Object Video Generation from Pixel-Level
Interactions
- arxiv url: http://arxiv.org/abs/2306.03988v1
- Date: Tue, 6 Jun 2023 19:50:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 17:19:32.053312
- Title: Learn the Force We Can: Multi-Object Video Generation from Pixel-Level
Interactions
- Title(参考訳): 力の学習:Pixel-Levelインタラクションによるマルチオブジェクトビデオ生成
- Authors: Aram Davtyan and Paolo Favaro
- Abstract要約: 本稿では,単一のフレームとスパース動作入力から映像を自動回帰生成する新しい手法を提案する。
本手法の主な構成要素は、ランダム化条件付け方式、入力運動制御の符号化、ランダム化およびスパースサンプリングによる相関の破れである。
我々のモデルはヨーダと呼ばれ、物理的に触れることなく物体を動かすことができる。
- 参考スコア(独自算出の注目度): 27.913052825303097
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel unsupervised method to autoregressively generate videos
from a single frame and a sparse motion input. Our trained model can generate
realistic object-to-object interactions and separate the dynamics and the
extents of multiple objects despite only observing them under correlated motion
activities. Key components in our method are the randomized conditioning
scheme, the encoding of the input motion control, and the randomized and sparse
sampling to break correlations. Our model, which we call YODA, has the ability
to move objects without physically touching them. We show both qualitatively
and quantitatively that YODA accurately follows the user control, while
yielding a video quality that is on par with or better than state of the art
video generation prior work on several datasets. For videos, visit our project
website https://araachie.github.io/yoda.
- Abstract(参考訳): 本研究では,単一のフレームとスパース動作入力から映像を自動回帰生成する新しい教師なし手法を提案する。
学習したモデルでは, 物体と物体の相互作用を現実的に生成し, 複数の物体のダイナミックスと範囲を分離することができる。
本手法の重要な構成要素は,ランダム化条件付けスキーム,入力動作制御の符号化,ランダム化およびスパースサンプリングによる相関の破れである。
われわれのモデルはyodaと呼ばれ、物理的に触れることなく物体を動かすことができる。
ヨダがユーザコントロールを正確に追従すると同時に,複数のデータセットに先行するアートビデオ生成の状況と同等かそれ以上の画質の映像が得られることを,定性的かつ定量的に示す。
ビデオはプロジェクトのwebサイトhttps://araachie.github.io/yoda.comをご覧ください。
関連論文リスト
- Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics [67.97235923372035]
本稿では,対話型ビデオ生成モデルであるPuppet-Masterについて紹介する。
テスト時には、ひとつのイメージと粗い動き軌跡が与えられた場合、Puppet-Masterは、与えられたドラッグ操作に忠実な現実的な部分レベルの動きを描写したビデオを合成することができる。
論文 参考訳(メタデータ) (2024-08-08T17:59:38Z) - EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。
動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文 参考訳(メタデータ) (2024-06-28T10:39:36Z) - Purposer: Putting Human Motion Generation in Context [30.706219830149504]
本研究では,3次元屋内シーンに人間の動きを再現する新しい手法を提案する。
シーン内のパス、ターゲットポーズ、過去の動き、そして3Dポイントの雲として表されるシーンなど、様々な条件信号の組み合わせで制御できる。
論文 参考訳(メタデータ) (2024-04-19T15:16:04Z) - CAGE: Controllable Articulation GEneration [14.002289666443529]
分割拡散法を用いて, 部品形状, 接続性, 動きの相互作用を利用する。
本手法では,オブジェクトカテゴリラベルと部分接続グラフを入力として,オブジェクトの形状と運動パラメータを生成する。
実験の結果,本手法は音声オブジェクト生成における最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-15T07:04:27Z) - TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。
我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。
本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-05-06T09:07:01Z) - Understanding Object Dynamics for Interactive Image-to-Video Synthesis [8.17925295907622]
本稿では,局所的な操作によって自然に見えるグローバルな調音をピクセルレベルで学習する手法を提案する。
我々の生成モデルは、ユーザインタラクションに対する応答として、自然なオブジェクトのダイナミクスを推論することを学ぶ。
ビデオ予測に関する既存の研究とは対照的に、任意のリアルなビデオは合成しない。
論文 参考訳(メタデータ) (2021-06-21T17:57:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。