論文の概要: Understanding Object Dynamics for Interactive Image-to-Video Synthesis
- arxiv url: http://arxiv.org/abs/2106.11303v1
- Date: Mon, 21 Jun 2021 17:57:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-22 15:26:56.694936
- Title: Understanding Object Dynamics for Interactive Image-to-Video Synthesis
- Title(参考訳): 対話型画像-映像合成のためのオブジェクトダイナミクスの理解
- Authors: Andreas Blattmann, Timo Milbich, Michael Dorkenwald, Bj\"orn Ommer
- Abstract要約: 本稿では,局所的な操作によって自然に見えるグローバルな調音をピクセルレベルで学習する手法を提案する。
我々の生成モデルは、ユーザインタラクションに対する応答として、自然なオブジェクトのダイナミクスを推論することを学ぶ。
ビデオ予測に関する既存の研究とは対照的に、任意のリアルなビデオは合成しない。
- 参考スコア(独自算出の注目度): 8.17925295907622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: What would be the effect of locally poking a static scene? We present an
approach that learns naturally-looking global articulations caused by a local
manipulation at a pixel level. Training requires only videos of moving objects
but no information of the underlying manipulation of the physical scene. Our
generative model learns to infer natural object dynamics as a response to user
interaction and learns about the interrelations between different object body
regions. Given a static image of an object and a local poking of a pixel, the
approach then predicts how the object would deform over time. In contrast to
existing work on video prediction, we do not synthesize arbitrary realistic
videos but enable local interactive control of the deformation. Our model is
not restricted to particular object categories and can transfer dynamics onto
novel unseen object instances. Extensive experiments on diverse objects
demonstrate the effectiveness of our approach compared to common video
prediction frameworks. Project page is available at https://bit.ly/3cxfA2L .
- Abstract(参考訳): 静的なシーンをローカルにポーキングする効果は何でしょうか?
本稿では,局所的な操作によって自然に見えるグローバルな調音をピクセルレベルで学習する手法を提案する。
トレーニングには、動くオブジェクトのビデオのみが必要だが、物理的なシーンの基本的な操作に関する情報は必要ない。
生成モデルは、ユーザのインタラクションに対する応答として自然オブジェクトのダイナミクスを推測し、異なるオブジェクトボディ領域間の相互関係について学習する。
オブジェクトの静的イメージとピクセルの局所的なポーキングが与えられた場合、アプローチは時間とともにオブジェクトがどのように変形するかを予測する。
ビデオ予測に関する既存の研究とは対照的に、任意のリアルなビデオを合成するのではなく、変形の局所的インタラクティブ制御を可能にする。
我々のモデルは特定のオブジェクトカテゴリに限定されず、新しい未発見のオブジェクトインスタンスにダイナミクスを転送できる。
多様なオブジェクトに対する大規模な実験は、一般的なビデオ予測フレームワークと比較して、我々のアプローチの有効性を示す。
プロジェクトページはhttps://bit.ly/3cxfa2l。
関連論文リスト
- Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。
我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。
トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文 参考訳(メタデータ) (2024-04-16T16:04:38Z) - ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z) - AnyDoor: Zero-shot Object-level Image Customization [63.44307304097742]
ユーザが指定した場所の新しいシーンにターゲットオブジェクトをテレポートする機能を備えた拡散ベースのイメージジェネレータであるAnyDoorを紹介する。
我々のモデルは1回のみ訓練され、推論段階では多様なオブジェクトとシーンの組み合わせに懸命に一般化される。
論文 参考訳(メタデータ) (2023-07-18T17:59:02Z) - Learn the Force We Can: Enabling Sparse Motion Control in Multi-Object
Video Generation [26.292052071093945]
単一のフレームとスパース動作入力からビデオを生成する教師なしの手法を提案する。
我々の訓練されたモデルは、目に見えない現実的なオブジェクト間相互作用を生成できる。
ヨダは、制御性と映像品質の両面において、先行するアートビデオ生成の状況と同等かそれ以上であることを示す。
論文 参考訳(メタデータ) (2023-06-06T19:50:02Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z) - iPOKE: Poking a Still Image for Controlled Stochastic Video Synthesis [8.17925295907622]
iPOKE - オブジェクトキネマティクスの非可逆予測 - は、オブジェクトキネマティクスをサンプリングし、対応する可視ビデオとの1対1対応を確立することができる。
従来の作品とは対照的に、任意のリアルなビデオを生成するのではなく、動きの効率的な制御を提供する。
我々のアプローチでは、キネマティクスを新しいオブジェクトインスタンスに転送することができ、特定のオブジェクトクラスに限定されない。
論文 参考訳(メタデータ) (2021-07-06T17:57:55Z) - DyStaB: Unsupervised Object Segmentation via Dynamic-Static
Bootstrapping [72.84991726271024]
我々は,コヒーレントなシーン全体を移動しているように見えるシーンの画像の一部を検出し,分割するための教師なしの手法について述べる。
提案手法はまず,セグメント間の相互情報を最小化することにより,運動場を分割する。
セグメントを使用してオブジェクトモデルを学習し、静的なイメージの検出に使用することができる。
論文 参考訳(メタデータ) (2020-08-16T22:05:13Z) - RELATE: Physically Plausible Multi-Object Scene Synthesis Using
Structured Latent Spaces [77.07767833443256]
RELATEは、複数の対話オブジェクトの物理的に可視なシーンとビデオを生成することを学習するモデルである。
オブジェクト中心生成モデリングにおける最先端の手法とは対照的に、RELATEは自然に動的なシーンに拡張し、高い視覚的忠実度のビデオを生成する。
論文 参考訳(メタデータ) (2020-07-02T17:27:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。