論文の概要: iPOKE: Poking a Still Image for Controlled Stochastic Video Synthesis
- arxiv url: http://arxiv.org/abs/2107.02790v1
- Date: Tue, 6 Jul 2021 17:57:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-07 13:44:28.548027
- Title: iPOKE: Poking a Still Image for Controlled Stochastic Video Synthesis
- Title(参考訳): iPOKE:制御された確率的ビデオ合成のための静止画
- Authors: Andreas Blattmann, Timo Milbich, Michael Dorkenwald, Bj\"orn Ommer
- Abstract要約: iPOKE - オブジェクトキネマティクスの非可逆予測 - は、オブジェクトキネマティクスをサンプリングし、対応する可視ビデオとの1対1対応を確立することができる。
従来の作品とは対照的に、任意のリアルなビデオを生成するのではなく、動きの効率的な制御を提供する。
我々のアプローチでは、キネマティクスを新しいオブジェクトインスタンスに転送することができ、特定のオブジェクトクラスに限定されない。
- 参考スコア(独自算出の注目度): 8.17925295907622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How would a static scene react to a local poke? What are the effects on other
parts of an object if you could locally push it? There will be distinctive
movement, despite evident variations caused by the stochastic nature of our
world. These outcomes are governed by the characteristic kinematics of objects
that dictate their overall motion caused by a local interaction. Conversely,
the movement of an object provides crucial information about its underlying
distinctive kinematics and the interdependencies between its parts. This
two-way relation motivates learning a bijective mapping between object
kinematics and plausible future image sequences. Therefore, we propose iPOKE -
invertible Prediction of Object Kinematics - that, conditioned on an initial
frame and a local poke, allows to sample object kinematics and establishes a
one-to-one correspondence to the corresponding plausible videos, thereby
providing a controlled stochastic video synthesis. In contrast to previous
works, we do not generate arbitrary realistic videos, but provide efficient
control of movements, while still capturing the stochastic nature of our
environment and the diversity of plausible outcomes it entails. Moreover, our
approach can transfer kinematics onto novel object instances and is not
confined to particular object classes. Project page is available at
https://bit.ly/3dJN4Lf
- Abstract(参考訳): 静的なシーンがローカルのpokeにどう反応するか?
ローカルにプッシュできれば、オブジェクトの他の部分にどのような影響がありますか?
我々の世界の確率的性質によって引き起こされる明らかな変化にもかかわらず、独特の動きが存在するだろう。
これらの結果は、局所的な相互作用によって引き起こされる全体運動を規定する物体の特徴的な運動学によって支配される。
逆に、物体の動きは、その基礎となる特徴的な運動学とその部分間の相互依存性に関する重要な情報を提供する。
この2方向関係は、対象キネマティクスと有望な将来の画像シーケンスの間の客観的マッピングを学ぶ動機となる。
そこで本稿では,対象キネマティックスの初期フレームと局所ポケを条件として,対象キネマティックスをサンプリングし,対応する可読性映像に対して1対1の対応関係を確立することにより,制御された確率的ビデオ合成を実現する,対象キネマティックスの可逆的予測を提案する。
従来の作品とは対照的に、任意のリアルなビデオは生成しないが、環境の確率的性質とそれに関連する妥当な結果の多様性を把握しながら、動きの効率的な制御を提供する。
さらに、我々の手法は、キネマティックスを新しいオブジェクトインスタンスに転送することができ、特定のオブジェクトクラスに限定されない。
プロジェクトページはhttps://bit.ly/3djn4lfで利用可能
関連論文リスト
- Physics-based Scene Layout Generation from Human Motion [21.939444709132395]
本研究では、シーンレイアウト生成を同時に最適化し、物理シミュレータで動く人間をシミュレートする物理に基づくアプローチを提案する。
我々は、強化学習を用いて、キャラクタ動作模倣コントローラとシーンレイアウトジェネレータの両方の二重最適化を行う。
提案手法は,SAMPとPROXの動作を用いて評価し,従来のキネマティクス法と比較して,物理的に妥当なシーンレイアウトの再構築を示す。
論文 参考訳(メタデータ) (2024-05-21T02:36:37Z) - ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z) - Unsupervised Multi-object Segmentation by Predicting Probable Motion
Patterns [92.80981308407098]
手動による監督なしに複数の画像オブジェクトを分割する手法を提案する。
この方法は静止画像からオブジェクトを抽出するが、監視のためにビデオを使用する。
シミュレーションおよび実世界のベンチマークで、最先端の教師なしオブジェクトセグメンテーション性能を示す。
論文 参考訳(メタデータ) (2022-10-21T17:57:05Z) - Learning Object Manipulation Skills from Video via Approximate
Differentiable Physics [27.923004421974156]
我々はロボットに、単一のビデオデモを見て、シンプルなオブジェクト操作タスクを実行するように教える。
識別可能なシーンは、3Dシーンと2Dビデオの間の知覚的忠実性を保証する。
我々は,54のデモ映像からなる3次元再構成作業に対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-08-03T10:21:47Z) - Stochastic Video Prediction with Structure and Motion [14.424465835834042]
本稿では,映像観察を静的・動的成分に分解する手法を提案する。
前景と背景の変化の分布を別々に学習することで、シーンを静的と動的に分解することができる。
我々の実験は、遠心構造と動きが映像の予測に役立ち、複雑な運転シナリオにおける将来の予測に繋がることを示した。
論文 参考訳(メタデータ) (2022-03-20T11:29:46Z) - Understanding Object Dynamics for Interactive Image-to-Video Synthesis [8.17925295907622]
本稿では,局所的な操作によって自然に見えるグローバルな調音をピクセルレベルで学習する手法を提案する。
我々の生成モデルは、ユーザインタラクションに対する応答として、自然なオブジェクトのダイナミクスを推論することを学ぶ。
ビデオ予測に関する既存の研究とは対照的に、任意のリアルなビデオは合成しない。
論文 参考訳(メタデータ) (2021-06-21T17:57:39Z) - JOKR: Joint Keypoint Representation for Unsupervised Cross-Domain Motion
Retargeting [53.28477676794658]
ビデオにおける教師なしの動作は ディープ・ニューラル・ネットワークによって 大幅に進歩しました
JOKR(Joint Keypoint Representation)は、オブジェクトの事前やデータ収集を必要とせずに、ソースとターゲットのビデオの両方を処理する。
本手法は質的かつ定量的に評価し,異なる動物,異なる花,人間など,さまざまなクロスドメインシナリオを扱うことを示す。
論文 参考訳(メタデータ) (2021-06-17T17:32:32Z) - Object Properties Inferring from and Transfer for Human Interaction
Motions [51.896592493436984]
本稿では,人間のインタラクション動作のみからオブジェクト特性を推測する,きめ細かい動作認識手法を提案する。
我々は、慣性モーションキャプチャー装置を用いて、演奏者の多数のビデオと3D骨格の動きを収集する。
特に, 相互作用対象の重み, 脆弱性, デリカシーを推定することにより, 相互作用対象の同定を学習する。
論文 参考訳(メタデータ) (2020-08-20T14:36:34Z) - RELATE: Physically Plausible Multi-Object Scene Synthesis Using
Structured Latent Spaces [77.07767833443256]
RELATEは、複数の対話オブジェクトの物理的に可視なシーンとビデオを生成することを学習するモデルである。
オブジェクト中心生成モデリングにおける最先端の手法とは対照的に、RELATEは自然に動的なシーンに拡張し、高い視覚的忠実度のビデオを生成する。
論文 参考訳(メタデータ) (2020-07-02T17:27:27Z) - Occlusion resistant learning of intuitive physics from videos [52.25308231683798]
人工システムの鍵となる能力は、オブジェクト間の物理的相互作用を理解し、状況の将来的な結果を予測することである。
この能力は直感的な物理学と呼ばれ、近年注目されており、ビデオシーケンスからこれらの物理規則を学ぶためのいくつかの方法が提案されている。
論文 参考訳(メタデータ) (2020-04-30T19:35:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。